Flink与Spark一样也是大数据计算引擎,可以完成离线的批处理计算和流处理计算。Flink的优势在它的流处理引擎DataStream。下图展示了Flink的生态圈体系架构。
视频讲解如下:
从下往上可以将Flink的生态圈体系划分成三层,分别是:平台部署层、核心引擎层和API&Library层。下面分别进行介绍。
1、平台部署层
Flink支持在不同的平台模式进行部署。下表说明了Flink在各种平层模式上进行部署的特点。
集群模式和Cloud模式都可以用于生产环境,目前主流的部署模式是Cluster on Yarn。
2、核心引擎层
它是Flink的执行引擎,所有Flink中的计算任务都是这一层执行完成。在部署Flink的时候也是部署的这一层。
3、API & Library层
这一层主要提供给应用开发人员使用。DataStream API是Flink的流处理模块,并在此基础之上提供了CEP的复杂事件处理机制与数据分析引擎工具Table & SQL;而DataSet API是Flink的批处理模块,基于此API又提供了MLlib机器学习算法的框架、Gelly的图计算框架和数据分析引擎工具Table & SQL。