告警监控对于一个集群来说,其重要性不言而喻。Cloudera Manager的告警功能非常详尽,CDH集群出现的异常、故障信息等都会及时地出现在CM页面上,通过页面可以快速方便地了解到集群运行性状况。
业务体量稍微大点的公司可能会有自己的一套监控体系,他们可能有多种类型的集群,所以会有将CDH集群的告警信息融合到自身监控平台上去的需求。幸运的是,Cloudera对外提供的告警监控API十分全面而详细,它的APi设计也简单易懂。因此本篇文章我们就来简单地了解一下Cloudera Manager的告警和通过API获得告警信息。
告警介绍
在Cloudera Manager (以下简称CM)的管理界面有提供快速查看到页面的告警信息, CM中的告警信息的展示是由Event Server服务(负责检查和收集事件信息)和Alert Publisher服务(推送告警信息)所组成。告警分为下面几种类型:
1.红色感叹号表示故障,需要立即处理,否则会影响正常使用
2.黄色感叹号表示预警,需要查看,表示可能将会出现故障,但不影响使用
3.红色的设置符号表示错误配置,需要立即处理,否则会影响正常使用
4.黄色的设置符号表示非推荐配置,需要查看并根据实际情况调整,但不影响使用
集群事件可以在CM界面>诊断>事件 查看到,如下:
CM界面上的事件分为三个级别:
CRITICAL:对应CM界面的红色感叹号告警或者对应ERROR级别的日志告警
IMPORTANT:对应CM中的黄色感叹号告警或者对应WARN级别的日志告警
INFORMATIONAL:主要是一些CM界面登录信息和集群健康检查信息
事件告警 API
事件告警API可以点击CM界面>支持>API文档获取,如下
我们切换到swagger,找到eventsource接口,可以根据接口信息进行调用获取