CDH集成Kafka,两种方式:离线、在线
1.离线 先下载相应版本的kafka http://archive.cloudera.com/kafka/parcels/ 然后放置相应目录,如下图:
然后直接添加组件即可
2.在线
配置相应的kafka地址 http://archive.cloudera.com/kafka/parcels/latest/ CDH会自动选择相应的kafka版本,然后保存设置
然后选择下载、分配、激活、添加组件即可!
注意: 由于1.6的spark streaming是基于kafka-0.8.2编译的,虽然官网建议kafka-0.8及其以上,但kafka-0.9在更新zk的offset的api,完全不兼容kafka-0.8的api,所以说用高版本的kafak还是有一些坑要踩的 还是需要根据自己公司情况,自行选择kafka版本
Kafka: Spark Streaming 1.6.1 is compatible with Kafka 0.8.2.1. Flume: Spark Streaming 1.6.1 is compatible with Flume 1.6.0.