在一个风和日丽的上午,日志告警群里的机器人开始告警,显示redis 连接超时;第一反应是不是redis 扛不住了。然后登陆到华为云控制台上查看redis 监控;
redis 超时肯定就是网络层面的问题,第一反应先看一下是不是连接数满了;
然后看到活跃的客户端数量是2000不到,然后里面有一个新建连接数。发现新建连接数为562788(五十万),感觉这个监控指标有点异常,因为我们redis当前redis 实力的最大TCP连接数是(10000-50000)然后我们reids 实力配置的 maxClient 参数是10000,按照道理来说新建连接数应该最大才能有10000,超过10000 就应该疯狂报错了,但是告警没有那么频繁,所以我感觉华为云的这个监控有啥问题,于是提工单来问。新建连接数 这个监控数据到底是怎么取的;得到的答案是: 新建连接数:这是60s 以内的值,真正当前这个时间点新建连接数应该是562788/60=9,379.8
所以应该是连接数超过最大值导致的连接redis 超时;
那么问题来了。 我问了所有的开发都说redis 使用的是长连接。如果真的是如他们所说那就真是活见鬼了。于是开始找证据,想法就是在同一时间在所有连接redis 的机器获取当前的TCP连接,然后看看看是从那个服务发起的连接redis;
在所有的机器上获取当前的TCP 连接状态,然后复制到指定的机器上进行分析
代码语言:javascript复制# cat /etc/ansible/mon.yaml
- hosts: k8s
gather_facts: True
tasks:
- name: Gets the current connection status
shell: conntrack -L >> {{ ansible_nodename }}.txt //获取当前机器的网络链接状态
args:
chdir: /root/
- name: Reverse fetch file
fetch:
src: "/root/{{ ansible_nodename }}.txt"
dest: /tmp/zsf/
flat: true
- ansible_nodename 主机名
然后执行ansible 命令
代码语言:javascript复制ansible-playbook /etc/ansible/mon.yaml
然后进去到/tmp/zsf 目录下分析数据
代码语言:javascript复制 awk '$0~/dport=6379/{sum[$5] }END{for(i in sum )print sum[i],i}' *| sort -n
然后就能看到每个IP地址链接redis的数量了,之后你就只需要确认这个写ip地址属于那个服务的就行了
代码语言:javascript复制kubectl get pods -o wide | grep $IP
找到对应的负责开发,去排查代码。 发现确实redis 连接池没生效,导致的这个问题。到此问题得以解决;