Spark streaming
数据分类:静态数据和动态数据。静态数据的常见应用是数据仓库
。利用数据挖掘和OLAP (on-line analytical processing)
分析工具从静态数据中找出对企业有用的数据。
特点
- 数据快速持续到达
- 数据来源多,格式复杂
- 数据量大
- 注重数据的整体价值,不过分关注单个数据
- 数据顺序颠倒或不完整,系统无法控制新数据的到达顺序
处理方式
- 批量计算
充裕时间处理静态数据,如Hadoop
等
- 实时计算
流数据不适合采用批量计算,不适合传统的数据关系模型建模。必须采用实时计算
在流计算中,数据的价值随着时间的流逝而降低
- 高性能:每秒处理几十万条数据
- 海量式:支持
TB
- 实时性:低延迟,达到秒级,甚至毫秒级
- 分布式:支持分布式扩展
- 易用性:快速开发和部署
- 可靠性:可靠的处理流数据
流计算框架
- IBM StreamBase
- Twitter Storm
- Yahoo! S4
- Puma:Facebook
- 银河流数据处理平台:TB
- Dstream:百度
流处理和传统方式比较
方式 | 流处理 | 传统方式 |
---|---|---|
数据 | 实时数据 | 静态数据 |
结果 | 实时结果 | 过去某个时刻 |
用户得到数据方式 | 系统主动推送 | 用户主动发出查询 |