在Spark框架当中,早期的设计由Spark Streaming来负责实现流计算,但是随着现实需求的发展变化,Spark streaming的局限也显露了出来,于是Spark团队又设计了Spark Structured Streaming。今天的大数据开发学习分享,我们就主要来讲讲,Spark Structured Streaming特性。
Spark Structured Streaming流处理
因为流处理具有如下显著的复杂性特征,所以很难建立非常健壮的处理过程:
一是数据有各种不同格式(Jason、Avro、二进制)、脏数据、不及时且无序;
二是复杂的加载过程,基于事件时间的过程需要支持交互查询,和机器学习组合使用;
三是不同的存储系统和格式(SQL、NoSQL、Parquet等),要考虑如何容错。
因为可以运行在Spark SQL引擎上,Spark Structured Streaming天然拥有较好的性能、良好的扩展性及容错性等Spark优势。除此之外,它还具备丰富、统一、高层次的API,因此便于处理复杂的数据和工作流。
Spark Structured Streaming对流的定义是一种无限表(unbounded table),把数据流中的新数据追加在这张无限表中,而它的查询过程可以拆解为几个步骤,例如可以从Kafka读取JSON数据,解析JSON数据,存入结构化Parquet表中,并确保端到端的容错机制。其中的特性包括:
支持多种消息队列,比如Files/Kafka/Kinesis等。
可以用join(),union()连接多个不同类型的数据源。
返回一个DataFrame,它具有一个无限表的结构。
用户可以按需选择SQL(BI分析)、DataFrame(数据科学家分析)、DataSet(数据引擎),它们有几乎一样的语义-和性能。
Spark Structured Streaming容错机制
在容错机制上,Structured Streaming采取检查点机制,把进度offset写入stable的存储中,用JSON的方式保存支持向下兼容,允许从任何错误点进行恢复。这样确保了端到端数据的exactly-once。
Spark Structured Streaming性能
在性能上,Structured Streaming重用了Spark SQL优化器和Tungsten引擎。
Structured Streaming隔离处理逻辑采用的是可配置化的方式(比如定制JSON的输入数据格式),执行方式是批处理还是流查询很容易识别。
在时间窗口的支持上,Structured Streaming支持基于事件时间(event-time)的聚合,这样更容易了解每隔一段时间发生的事情。同时也支持各种用户定义聚合函数(User Defined Aggregate Function,UDAF)。
另外,Structured Streaming可通过不同触发器间分布式存储的状态来进行聚合,状态被存储在内存中,归档采用HDFS的Write Ahead Log(WAL)机制。
当然,Structured Streaming还可自动处理过时的数据,更新旧的保存状态。因为历史状态记录可能无限增长,这会带来一些性能问题,为了限制状态记录的大小,Spark使用水印(watermarking)来删除不再更新的旧的聚合数据。允许支持自定义状态函数,比如事件或处理时间的超时,同时支持Scala和Java。
关于大数据开发学习,Spark Structured Streaming特性,以上就为大家做了简单的介绍了。Spark Structured Streaming的发展,在Spark的发展道路上是重要的一次调整,后续也值得持续关注。