温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。
Fayson的github: https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢
1
文档编写目的
在CDH集群启用了Kerberos后,在执行Spark作业时难免会遇到由于Kerberos认证问题导致作业运行失败的时候,那我们需要针对Spark作业进行调试,通过一些Debug日志查看认证失败的原因。本篇文章Fayson主要介绍如何为Spark的Driver和Executor的JVM启用Kerberos的Debug日志。
- 内容概述
1.启用Kerberos的Debug日志
2.示例运行
3.总结
- 测试环境
1.CM和CDH版本为5.15
2
启用Kerberos的Debug日志
Spark的运行环境Java环境,在为Spark的Driver和Executor启用Kerberos的Debug日志时,可以通过配置通用的Java属性“sun.security.krb5.debug=true”。可以在Java的运行命令中增加参数“-D sun.security.krb5.debug=true”,在运行时启用该属性。
对于Spark,需要在Spark的属性中将这些Java命令行属性分别传递给Driver和Executor对应的JVM,方式如下;
1.Spark Driver启用Kerberos的Debug日志,添加如下参数
代码语言:javascript复制spark.driver.extraJavaOptions=-Dsun.security.krb5.debug=true
2.Spark Executor启用Kerberos的Debug日志,添加如下参数
代码语言:javascript复制spark.executor.extraJavaOptions=-Dsun.security.krb5.debug=true
3
配置Debug日志输出
默认的Spark log4j配置是将Spark日志输出发送到stderr中,JVM不提供Kerberos的Debug日志输出位置配置。这里为了方便日志上下文分析,我们需要为Spark Gateway增加如下配置,将JVM中Kerberos的Debug日志输出到Spark的日志中。
1.登录Cloudera Manager并进入Spark的配置页面
2.在搜索框输入“log4j.properties”,在配置项中增加如下配置:
代码语言:javascript复制log4j.appender.console.target=System.out
3.保存配置并重新部署Spark的Gateway客户端
4
运行示例测试
1.在命令行向集群提交Spark作业,命令如下:
代码语言:javascript复制spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --conf "spark.driver.extraJavaOptions=-Dsun.security.krb5.debug=true" --conf "spark.executor.extraJavaOptions=-Dsun.security.krb5.debug=true" /opt/cloudera/parcels/CDH/lib/spark/lib/spark-examples.jar 10
2.查看Yarn作业执行日志
5
总结
1. Spark运行环境依赖于Java,因此在为Spark应用的Driver和Executor启用Kerberos的Debug日志时,只需要将Java通用属性sun.security.krb5.debug=true传递给Driver和Executor的运行环境即可。
2.默认的Spark日志输出文件为stderr,JVM并为提供Kerberos的Debug日志输出文件配置,需要在Spark的Gateway日志配置中增加log4j的配置。
3.由此配置方式,我们也可以为Driver和Executor配置其它的JVM运行参数,如垃圾回收等调优的参数。
提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。