前言
继 Dashboard 全新改版,Prometheus 服务灰度上线后,告警也迎来重大升级。告警 2.0 于 2020 年 11 月 16 日首次发布,目前正在灰度上线阶段,感兴趣的小伙伴请滑至文末,添加云监控助手微信号,沟通开白。
What's New
告警 2.0 本次改版之最大变化是对通知模版概念的引入,什么是通知模版呢?
通知模版:告警 2.0 引入全新的通知模版概念,在通知模版内,用户可以对通知类型,接收对象,通知时段,通知渠道,接口回调 五大要素进行自定义设置,配置最符合业务需要的通知模版。同一个模版可以绑定多条告警策略。
简单说,通知模版能帮助用户解决告警要发的类型,发给谁,什么时候发,发到哪儿去,这几个问题,并且大力提高了新建不同告警策略时设置相同通知效率。
为什么要引入通知模版呢?通常用户在配置告警策略时,经常变化的是告警规则(如,不同指标,不同阈值,不同事件),而将告警通知的几大核心元素模版化后,大大减少重复配置告警通知的工作量。在配置告警策略时,轻松勾选现有通知模版即可。
同时,也通过模版化的增强功能,支持了更多自定义的通知选项,提升灵活性。
在云监控告警2.0中完成告警的相关设置,包含三个核心步骤:告警规则,告警对象,以及告警通知。他们共同构成告警策略。
- 告警规则(用户在什么异常情况下才希望收到告警通知。如:内存超过 80% 时(指标),或机器重启时(事件))— 可通过触发条件模版实现 / 手动配置
- 告警对象 (告警规则需要对用户账号下购买的哪些资源生效)— 通过编辑告警策略设置
- 告警通知 (告警对象满足告警规则时,通知给关注人)— 通过通知模版设置
为了让大家更好的理解此图,触发条件模版也希望再分享给大家:
触发条件模版:等同于告警规则。通过模版的方式设置,告警触发的条件,主要分成两类:指标告警规则,和事件告警规则。指标告警:用户可以设定单个或多个指标的告警阈值,达到阈值的周期,以及告警频率。举个例子:用户需要对事件告警:部分云产品定义了不同的异常事件,用户可根据需求选择关注。
除了通知模版的最大不同,新版告警同时也做了一些功能上的小优化:
支持默认告警策略删除;
告警指标的可视化。当在设置告警规则时,如果选择手动配置,能实时看到选择的告警对象的指标趋势。
场景举例
新版告警的上线,让云监控用户在配置告警时拥有更多灵活性,举几个?:
A 团队只想上班时间接收告警,B 团队希望深夜接收告警,C 团队全天接收告警。
传送门:通知模版中即可设置
A 团队需要电话告警,B 团队需要邮件告警。
传送门:无需重复新建告警策略,通知模版中即可设置
A 团队关注告警触发,B 团队关注告警和恢复。
传送门:复制粘贴通知模版,选择不同通知类型
实例分成多个项目,实际关注的规则都一致,需要快速复用历史规则。
传送门:触发条件模版复制粘贴
...
规则和通知,两种模版,排列组合,最大化提升告警配置的效率。
告警正在灰度阶段,欢迎添加云监控助手微信号,沟通开白。
当然,我们也迫切的希望听到大家的建议,做出更丰富功能的新一代告警。
欢迎扫码加群讨论~