Prometheus AlertManager
关键配置详解
global
配置
resolve_timeout
全局配置,在配置的超时时间内没有收到上次告警就会发出恢复邮件,恢复也是按分组发出; 分组会包涵恢复和告警信息;
route
配置
group_by
路由配置后会匹配告警label
和value
相同才能生到同组内,示例:
# A datapoint
lt_955{env="ttt"}
# B datapoint
lt_999{env="ttt"}
group_wait
分组收到告警后会等待group wait
配置的时间,再发出报警,这样目地是同组在配置时间只发出一封报警邮件group_interval
等待group_interval指定的时间,判断Alert是否解决,当上次发送通知到现在的间隔大于repeat_interval或者Group有更新时会发送通知. 这段解释是抄的网上的,还没有测试效果,后续会更新repeat_interval
当上次报警发出后,再收到告警信息发出报警时间周期