这件事情真的是zabbix先动手的!!!!
6号zabbix跟我说没空间了...........
我上去看了看确实没了,然后想起来当初装zabbix的时候非常的浪,mysql放在了默认的位置上。
上了服务器看了一眼,一口老血喷到了屏幕上
帅!不砍这个砍啥!怒从心头起,恶想胆边生。
tar过来tar过去,改一波my.cnf,不容分说的restasrt!一顿骚操作,最后心满意足的rm了一下.............
世界就彻底清净了,心满意足的刷了晚餐券,打免费的车回家(鹅厂都懂得T_T)
第二天一上班。。。。。。。什么鬼!!!!!!!!!!!!!!!
一大波服务器闪断,嗯............
看了看日志发现有大量的no active checks on server,这是什么鬼?因为是闪断也恢复了,所以就没太在意。
然而第二天zabbix就给我一大波实力打脸。
一掉就是8台。
一般这种事情我都会往网络方向考虑,嗯!一定是网管这个小贱人又变更了!出来受死吧!!!!什么?啥也没动?
不是网管么?这不科学呀?
作为一个杰出的基于Google搜索引擎的系统管理员,爬上去看看这是一定的。
Google 告诉我这个问题的思路是三个:
1、网不通。各种怀疑都行,iptables、基础网络、端口监听,服务无响应
2、hostname没配对。确实找不到。
3、agent版本太低。那尼?这也行?
也就是第一个还靠谱一点,但是用zabbix_get,fping两边拉数据都没问题.......
我痛苦的想,究竟要怎么办!!!!!于是我把agent的debug开到了5,然而看到的竟然都是各种各样的success
success你倒是连上呀!!!
然后我先后怀疑系统问题,重启了zabbix-server,apache问题,重启了httpd,agent问题,各个机器重启agent。
最后我开始怀疑浏览器了,我的zabbix做的有点开,我把server和web分开了两台机器,既然独立的web服务有问题,我就去server上的web看看。
到server的web上一看,发现主页报错,提示zabbix没有找到mysql.sock。
突然想起来之前rm的时候太放荡了,应该就删那几个binlog就得了,遂去默认路径建立了一个mysql.sock的软连接,这下整个世界都安静了...........
最后复盘一下,很奇怪没有sock zabbix也可以跑?而且还只是影响部分功能????
好吧,以后rm不要这么浪,稳住。如果大家发现大量服务器掉线,也可以稍微考虑一下库的问题。