A 问题
A1 背压机制
- Spark 1.5以前版本,用户如果要限制 Receiver的数据接收速率,可以通过设置静态配制参数 “spark.streaming.receiver.maxRate”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。比如: producer数据生产高于 maxRate,当前集群处理能力也高于 maxRate,这就会造成资源利用率下降等问题。
- 为了更好的协调数据接收速率与资源处理能力,1.5版本开始 Spark Streaming可以动态控制数据接收速率来适配集群数据处理能力。 背压 机制(即 Spark Streaming Backpressure)): 根据JobScheduler反馈作业的执行信息来动态调整 Receiver数据接收率。通过属性“spark.streaming.backpressure.enabled”来控制是否启用 backpressure机制,默认值false,即不启用。
- 把spark.streaming.backpressure.enabled参数设置为ture,开启背压机制后Spark Streaming会根据延迟动态去kafka消费数据,上限由spark.streaming.kafka.maxRatePerPartition参数控制,所以两个参数一般会一起使用。
- 其作用就是为了让拉取和处理速度相对稳定。