指标&监控&告警入门详解(一)

2020-11-06 10:10:55 浏览数 (1)

作者:Justin Ellingwood

翻译:云监控团队

前言

了解基础设施和系统的状态对于确保服务的可靠性和稳定性至关重要。有关部署的运行状况和性能的信息不仅可以帮助你的团队响应问题,还可以使他们更放心地进行变更。获得这些信息的最佳方式之一就是使用监控系统。监控系统可收集指标,可视化数据,并且在服务异常时向关注人发出告警。

在本篇指南中,我们将讨论什么是指标,监控和告警。我们要讨论它们的重要性,它们提供的机会,以及你可能希望监控的数据类型。过程中,我们会介绍一些关键术语,并以简短的词汇表总结和该领域相关的一些其它术语。

什么是指标,监控和告警?

指标,监控和告警都是相互关联的概念,共同构成监控系统的基础。它们提供系统运行状况的可见性,帮助您了解用量或行为趋势、以及每次变更的影响。如果指标超出了您的预期范围,监控系统可以发送通知提示运维人员进行查看,以及帮助定位异常原因。

在本节中,我们将研究这些单独的概念以及它们的组合含义。

什么是指标,为什么要收集指标?

指标表示系统中可被观察和收集的资源用量或行为的原始度量。它们可能是操作系统提供的低级别用量情况,也可能是某个特定组件和功能相关的更高级别的类型,例如每秒请求数,某些指标是相对于总容量提出的,而另一些指标是表示组件 “繁忙” 程度的比率。

通常,最简单的指标是操作系统已上报的表示基础物理资源使用情况的指标。例如磁盘空间,CPU 负载,SWAP 使用情况等数据,可以立即提供价值,并且不需要太多额外工作可以直接上报到监控系统。许多 Web 服务器,数据库服务器和其他软件也提供了自己的指标,这些指标也可以上报。

对于其他组件,尤其是您自己的应用程序,您可能必须通过添加代码或接口才能展示这些指标。上报和展示指标有时被称为为您的服务添加检测工具。

指标非常有用,因为它们可以洞察系统的行为和运行状况,尤其是在做聚合分析时。它们是监控系统用来构建环境整体视图,自动响应异常并在需要时发出告警的原材料。指标是用于了解历史趋势,关联各种因素以及衡量性能,消耗或错误率变化的基本值。

什么是监控?

指标代表系统中的数据,而监控则是收集,汇总和分析这些指标的值以提高对业务模块的特征和行为的认知的过程。来自环境各个部分的数据被收集到监控系统中,这个系统负责存储,聚合,可视化并在指标值达到特定阈值,满足特定条件时自动触发响应。

通常,指标和监控之间的差异可比作数据和信息之间的差异。数据由未经处理的原始事实组成,而信息是通过对数据的分析和组织后,提供的具有上下文价值而产生的。监控通过对收集到的指标,进行聚合,以及从各不同的维度展示,使人们能够洞察到不同的信息。

监控系统承担了多种职责。首要职责是接收和存储传入数据和历史数据。尽管当前值很有用,但查看历史相关值会更有帮助,可以帮助更全面的查看变化和趋势。这意味着监控系统需要能对一段时间内的数据进行管理,包括对历史数据的采样和聚合。

其次,监控系统通常具有数据可视化的能力。虽然可以将指标以单个值和表格的形式展示,但通常数据如果以更有组织的可视化的方式呈现时,人们会更容易判断趋势并理解各个信息的组合意义。监控系统通常使用可配置的图形和仪表板来表示指标值。通过仪表盘,就可以了解系统内复杂变量的相互作用。

监控系统的另一个功能是能将不同来源的数据组织和关联起来。为了使指标有用,管理员需要知道不同资源、服务器之间的模式。例如,如果应用程序的错误率达到峰值,则管理员应该能通过监控系统来发现该事件是否是因为相关资源的容量耗尽。

最后,监控系统通常用作定义和激活告警的平台,我们将在下面讨论。

什么是告警?

告警是监控系统中的响应模块,它在指标值发生变化时执行操作。告警的定义由两个部分组成:基于指标的条件或阈值,以及当指标值超出设置的条件或阈值时需要执行的操作。

虽然监控系统对于主动发现和定位问题非常有用,但其中最主要的好处之一是能让管理员从系统中解放。告警可以定义需要人主动管理的情况,同时依靠软件的被动监控来监控变化。

通知负责人是告警最常见的场景,一些程序响应在指标一旦达到某种阈值也可以被触发。例如,通知您需要更多的 CPU 来处理当前负载的告警就可以和弹性伸缩联动,达到应用程序自动扩缩容的效果。虽然这并不是严格意义上的告警,因为它并没有发出通知,但通常也可以使用相同的监控系统机制来启动这些过程。

但是,告警的主要目的仍然是引起人们的注意,以关注系统的当前状态。自动响应比较重要的机制,它能确保通知仅在需要专业的人为处理的情况下才触发。告警应该包含异常原因以及查找其他相关信息的地址。然后,响应告警的人可以使用监控系统和相关工具(例如日志文件)来调查问题的原因并执行对应的策略。

即使是中等复杂度的基础架构也需要区分告警的严重程度,以便对应的负责团队和个人可以根据告警的严重程度采用合适的处理方式。例如,存储利用率指标的升高可能只需要发送一个弹窗或一封电子邮件,而影响客户的错误率或无响应事件的增加可能就需要及时卷入一线人员处理。

未完待续,预告:

系列(二):需要关注的监控重要信息及影响监控选择的要素

系列(三):指标 & 监控 & 告警系统的重要特质

欢迎联系云监控小助手微信号,加群讨论:)

0 人点赞