近期由于客户端机器连接过多,导致程序报错,详见:《Spark异常:address》。这里总结下该如何查看和维护Linux机器。首先查看机器的连接数统计:
代码语言:javascript复制netstat -n | awk '/^tcp/ { S[$NF]} END {for(a in S) print a, S[a]}'
TIME_WAIT 61
CLOSE_WAIT 5
FIN_WAIT2 5
ESTABLISHED 717
状态定义:
代码语言:javascript复制状态:描述
CLOSED:无连接是活动的或正在进行
LISTEN:服务器在等待进入呼叫
SYN_RECV:一个连接请求已经到达,等待确认
SYN_SENT:应用已经开始,打开一个连接
ESTABLISHED:正常数据传输状态
FIN_WAIT1:应用说它已经完成
FIN_WAIT2:另一边已同意释放
ITMED_WAIT:等待所有分组死掉
CLOSING:两边同时尝试关闭
TIME_WAIT:另一边已初始化一个释放
LAST_ACK:等待所有分组死掉
查看某一进程对应的详细信息:
代码语言:javascript复制通过 ps -ax|grep "执行文件名",获得进程ID
使用:cd /proc/进程ID
使用:ll -rt|grep cwd,即可获得执行文件的所处路径
也可以直接使用命令查询概览:
代码语言:javascript复制ss -s
分析进程占用端口号:
代码语言:javascript复制ps -ef | grep t_dwd_evt_user_bounce_tag
mqq 25891 194072 27 12:46 ? 00:01:20 /data/opt/jdk1.8.0_111/bin/java -cp /data/opt/spark-2.3.1-bin-hadoop2.7//conf/:/data/opt/spark-2.3.1-bin-hadoop2.7/jars/* -Xmx8g org.apache.spark.deploy.SparkSubmit --conf spark.sql.shuffle.partitions=600 --class com.tencent.th.dwd.t_dwd_evt_user_bounce_tag --total-executor-cores 300 SparkV2-1.0.1.jar repartition_num=100
mqq 41742 149384 0 12:51 pts/52 00:00:00 grep t_dwd_evt_user_bounce_tag
netstat -anpo | grep 25891 | awk '{print $4}' | sort -u
(Not all processes could be identified, non-owned process info
will not be shown, you would have to be root to see it all.)
]