learn from 从0开始学大数据(极客时间)
文章目录
- 1. Storm
- 2. Spark Streaming
- 3. Flink
- 对存储在磁盘上的数据进行大规模计算处理,大数据批处理
- 对实时产生的大规模数据进行处理,大数据流计算
1. Storm
一些系统 业务逻辑 和 数据处理逻辑 混合,系统不能复用到其他需求上
Storm
中,只需要编程开发好 数据处理逻辑 和 数据源逻辑,处理好拓扑关系
2. Spark Streaming
Spark Streaming
巧妙地利用了 Spark
的分片和快速计算的特性,将实时传输进来的数据按照时间进行分段,把一段时间传输进来的数据合并在一起,当作一批数据,再去交给 Spark 去处理。
Spark Streaming
主要负责 将流数据转换成小的批数据,剩下的交给 Spark
去做
3. Flink
- 既可以 流处理,也可以 批处理
- 初始化相应的执行环境
- 在数据流或数据集上执行数据转换操作
- 流计算就是将 大规模实时计算的 资源管理 和 数据流转 都统一管理起来
- 开发者只要开发 针对小数据量的 数据处理逻辑,然后部署到 流计算平台上,就可以对 大规模数据 进行 流式计算了