上一篇文章写了普通数字类型类型的监控报警,本文谈一下怎么样做好日志类的监控和报警
一、日志类报警的特点
1、接受人员希望直接看到日志的内容;
2、对应技术栈涉及比较广的系统,,一个问题会引发不同主机上面不同系统同时产生日志。举例:openstack 的nova在保存快照时出错,会引起nova-api,galnce-api,horizen同时产生错误日志。
二、遇到的痛点:
1、有很多人想随时查看日志,不同的人想要查看不同的日志;
2、日志类的报警,不适合用微信直接发送内容,原因一是转义麻烦,二是微信的消息长度有限制;
3、日志类的报警,报警风暴很多,往往一来一大波,但是很难对报警风暴进行聚合;
4、往往在收到报警时候,接警人员想同时看看同一个时间点其他系统的日志;
5、kibana的用户鉴权是收费用户,同时将kibana映射到公网给运维人员似乎很不靠谱。
三、解决方案
1、kibana的手机化,kibana是个非常棒的前端展示平台,如果有个类似的平台能手机化,在手机上实现随时查看、检索、报警推送,那简直完美。
2、自己写一个小型的系统,来实现日志的报警,展示,用户鉴权等基本功能
四、一些成果