流计算架构和流计算引擎[一]

  |   0 评论   |   3,932 浏览

流计算架构

常见的架构有Lambda架构,以及后来的Kappa架构。

Lambda架构 [1]

Storm的作者 Nathan Marz,基于在Twitter和Backtype的工作提出[2]。


或者同样原理的另一种实现



一般有两个独立的数据库,分别存储实时计算的结果,和批量计算的结果。


优点:

  • 历史数据不能变

缺点:

  • 需要编写两份代码
  • 新系统功能只能是两个系统功能交集的子集

Kappa架构[1]

Linkedln的Jay Kreps提出

流数据源

流计算引擎

评价指标[2]

  • 延时latency:high latency, low latency
  • 准确性accurate: inaccurate, accurate

引擎

  • Apache Flink:unbounded event stream, exactly-once event-time process
  • Apache Spark
  • Apache Storm
  • Twitter Heron

更多阅读

  1. Linkedln技术高管Jay Kreps:Lambda架构剖析
  2. Lambda 与 Kappa 架构笔记
  3. Discovering Anomalies in Real-Time with Apache Flink 
  4. https://en.wikipedia.org/wiki/Lambda_architecture

评论

发表评论

validate