Linux连接信息维护

近期由于客户端机器连接过多，导致程序报错，详见：《Spark异常:address》。这里总结下该如何查看和维护Linux机器。首先查看机器的连接数统计：

代码语言：javascript复制

netstat -n | awk '/^tcp/ {  S[$NF]} END {for(a in S) print a, S[a]}'
TIME_WAIT 61
CLOSE_WAIT 5
FIN_WAIT2 5
ESTABLISHED 717

状态定义：

代码语言：javascript复制

状态：描述 
CLOSED：无连接是活动的或正在进行 
LISTEN：服务器在等待进入呼叫 
SYN_RECV：一个连接请求已经到达，等待确认 
SYN_SENT：应用已经开始，打开一个连接 
ESTABLISHED：正常数据传输状态 
FIN_WAIT1：应用说它已经完成 
FIN_WAIT2：另一边已同意释放 
ITMED_WAIT：等待所有分组死掉 
CLOSING：两边同时尝试关闭 
TIME_WAIT：另一边已初始化一个释放 
LAST_ACK：等待所有分组死掉

查看某一进程对应的详细信息：

代码语言：javascript复制

通过 ps -ax|grep "执行文件名"，获得进程ID
使用：cd /proc/进程ID
使用：ll -rt|grep cwd，即可获得执行文件的所处路径

也可以直接使用命令查询概览：

代码语言：javascript复制

ss -s

分析进程占用端口号：

代码语言：javascript复制

ps -ef | grep t_dwd_evt_user_bounce_tag
mqq       25891 194072 27 12:46 ?        00:01:20 /data/opt/jdk1.8.0_111/bin/java -cp /data/opt/spark-2.3.1-bin-hadoop2.7//conf/:/data/opt/spark-2.3.1-bin-hadoop2.7/jars/* -Xmx8g org.apache.spark.deploy.SparkSubmit --conf spark.sql.shuffle.partitions=600 --class com.tencent.th.dwd.t_dwd_evt_user_bounce_tag --total-executor-cores 300 SparkV2-1.0.1.jar repartition_num=100
mqq       41742 149384  0 12:51 pts/52   00:00:00 grep t_dwd_evt_user_bounce_tag

netstat -anpo | grep 25891 | awk '{print $4}' | sort -u
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root to see it all.)
]

linux spark 进程统计异常

0 人点赞