最新 最热

通过Prometheus来做SLI/SLO监控展示

SLI,全名Service Level Indicator,是服务等级指标的简称,它是衡定系统稳定性的指标。

2021-04-08
1

prometheus告警问题分析

最近运维prometheus的过程中发现,有的时候它应该发送告警,可实际却没有;有的时候,不该发送告警却发送了;还有的时候,告警出现明显的延迟。为了找出其中的具体原因,特地去查阅了一些资料,同时也参考了官网的相关资料。希望对大...

2021-04-08
1

prometheus+telegraf+grafana监控学习(二)

通过上一篇prometheus+telegraf+grafana监控学习(一)已经启动了prometheus,那么现在我们需要在被监控机器上部署telegraf。

2020-12-10
1

​Top99 超时排查思路

我们的系统 Top90 稳定在 19ms 左右,Top99 稳定在 46 ms 左右,Top999 稳定在 50ms 左右,监控报警主要用的 Prometheus + Grafana + 自研报警平台

2020-12-08
1

ClickHouse的运行指标监控可以怎么玩?

一般来说,当咱们的 ClickHouse 要在生产环境上线的时候,关于对 CH 的运行监控工作就必须提到议程上来了。

2020-11-16
1

Prometheus 监控实践

监控作为底层基础设施的一环,是保障生产环境服务稳定性不可或缺的一部分,线上问题从发现到定位再到解决,通过监控和告警手段可以有效地覆盖了「发现」和「定位」,甚至可以通过故障自愈等手段实现解决,服务开发和运维人员能...

2020-11-09
1

linux systemctl命令详解

笔者在前文中概要的介绍了 systemd 的基本概念和主要特点。由于 systemd 相关的绝大多数任务都是通过 systemctl 命令管理的,所以本文将集中的介绍 systemctl 命令的用法。注意,本文以 ubuntu 16.04 进行介绍,文中所有的...

2020-10-19
1

k8s prometheus的语法检查

生产环境下,prometheus的configmap修改后 ,如果apply后还是不能生效,一般就是语法报错了,reload失败。

2020-07-21
1

Prometheus配置企业微信告警

不过现在这个告警不好看,我们可以自定义模板。创建一个template.tmp1的文件。如下

2020-06-22
1

AlertManager 何时报警?

在使用 Prometheus 进行监控的时候,通过 AlertManager 来进行告警,但是有很多人对报警的相关配置比较迷糊,不太清楚具体什么时候会进行告警。下面我们来简单介绍下 AlertManager 中的几个容易混淆的参数。...

2020-06-15
1