如何收集SparkSteaming运行日志实时进入kafka中

用过sparkstreaming的人都知道，当使用sparkstreaming on yarn模式的时候，如果我们想查看系统运行的log，是没法直接看的，就算能看也只是一部分。

这里的log分：

（1）

下面会介绍下如何使用：

streaming项目中的log4j使用的是apache log4j

sparkstreaming项目可以单独提交某个job的log4j文件，这样就能定制每个job的log输出格式，如果提交的时候不提交log4j文件,那么默认用的是spark安装目录下面的log4j文件。看下我们log4j文件的内容：

最后看下提交脚本：

注意上面提交脚本中，/opt/bigdata/jars/spark/这个路径引用的jar包，必须在每台hadoop机器上都要存在，sparkstreaming运行过程中，会从本地加载jar包，此外log4j.properties文件以及参数里面--jars 后面的依赖jar 可以在提交机器上放一份即可，不需要每台机器上都存放。

提交任务后，在kafka的节点上执行消费者命令就能看到对应的log输出：执行命令：

代码语言：javascript复制

kafka-console-consumer --zookeeper 192.168.201.5:2181 --topic kp_diag_log

收集到的log内容如下：

至此，我们的log就统一收集成功了，后续我们可以把log从kafka导入到es中，就可以任意分析和查询了。

这里需要注意一点，sparkstreaming运行时候，系统本身也有大量的log，如果把这个系统log也收集到kafka里面本身的量是非常大的，而且好多信息不重要，其实我们只需要关注业务重点log即可，主要是WARN ERROR级别的，调试的时候可以把info级别打开，代码里重点关注的log都放在warn级别，异常什么的放在ERROR即可这样排查问题时候也容易而且了避免了大量log的产生从应用本身性能的影响。

spark yarn

0 人点赞