大数据之路——阿里巴巴大数据实践读书记录

  |   0 评论   |   0 浏览

数据分层

  • 操作数据层ODS ( Operational Data Store )
  • 明细数据层DWD ( Data Warehouse Detail )
  • 汇总数据层DWS ( Data Warehouse Summary )
  • 应用数据层ADS ( Application Data Store )

数据采集

页面浏览日志采集

  • 客户端日志采集
  • 客户端日志发送
  • 服务器端日志收集
  • 服务器端日志解析归档

页面交互日志采集

黄金令箭

页面日志的服务器端清洗和预处理

  • 识别流量攻击
  • 数据缺项补正
  • 无效数据剔除
  • 日志隔离分发

中间件

消息队列 ( TimeTunnel )

亮点

双11大促保障

  • 控制发送频率:服务端推送配置到客户端
  • 日志分级:重要日志实时推送,非重要日志延迟上报。

数据同步:增量与全量同步的合并

由于大数据平台不支持update操作,推荐的方式是全外连接(full outer join) + 数据全量覆盖重新加载 (insert overwrite)。

全量更新性能比update要高很多。