Spark笔记13-Spark Streaming

2021-03-02 15:42:04 浏览数 (1)

Spark streaming

数据分类:静态数据和动态数据。静态数据的常见应用是数据仓库。利用数据挖掘和OLAP (on-line analytical processing)分析工具从静态数据中找出对企业有用的数据。

特点
  • 数据快速持续到达
  • 数据来源多,格式复杂
  • 数据量大
  • 注重数据的整体价值,不过分关注单个数据
  • 数据顺序颠倒或不完整,系统无法控制新数据的到达顺序
处理方式
  1. 批量计算

充裕时间处理静态数据,如Hadoop

  1. 实时计算 流数据不适合采用批量计算,不适合传统的数据关系模型建模。必须采用实时计算 在流计算中,数据的价值随着时间的流逝而降低
    • 高性能:每秒处理几十万条数据
    • 海量式:支持TB
    • 实时性:低延迟,达到秒级,甚至毫秒级
    • 分布式:支持分布式扩展
    • 易用性:快速开发和部署
    • 可靠性:可靠的处理流数据

流计算框架

  • IBM StreamBase
  • Twitter Storm
  • Yahoo! S4
  • Puma:Facebook
  • 银河流数据处理平台:TB
  • Dstream:百度

流处理和传统方式比较

方式

流处理

传统方式

数据

实时数据

静态数据

结果

实时结果

过去某个时刻

用户得到数据方式

系统主动推送

用户主动发出查询

0 人点赞