大数据之路——阿里巴巴大数据实践读书记录
数据分层
- 操作数据层ODS ( Operational Data Store )
- 明细数据层DWD ( Data Warehouse Detail )
- 汇总数据层DWS ( Data Warehouse Summary )
- 应用数据层ADS ( Application Data Store )
数据采集
页面浏览日志采集
- 客户端日志采集
- 客户端日志发送
- 服务器端日志收集
- 服务器端日志解析归档
页面交互日志采集
黄金令箭
页面日志的服务器端清洗和预处理
- 识别流量攻击
- 数据缺项补正
- 无效数据剔除
- 日志隔离分发
中间件
消息队列 ( TimeTunnel )
亮点
双11大促保障
- 控制发送频率:服务端推送配置到客户端
- 日志分级:重要日志实时推送,非重要日志延迟上报。
数据同步:增量与全量同步的合并
由于大数据平台不支持update操作,推荐的方式是全外连接(full outer join) + 数据全量覆盖重新加载 (insert overwrite)。
全量更新性能比update要高很多。