一、生产环境我们都需要监测什么?
- 资源监测,对系统基础设施的健康度进行监测,包括网络与服务器节点的监测,监测内容包括网络连接与拥堵状态、CPU 负载和内存及外部存储空间的使用状况等。
- 应用监测,对应用程序的运行健康度进行监测,例如,应用程序进程是否存在,是否能正常提供对外服务,是否有功能映陷,是否能正常连接数据库,是否有超时现象,是否有服务抛出的异常和告警,是否可以及时扩容以应对突增的大量请求等。
- 业务监测,是对业务指标健康度的监测。例如,对电商网站来说,应当包括但不限于实时的用户访问量、具体页面的浏览数、转化率、订单量和交易额等。
二、数据监测流程是什么样的?
- 采集上报:将事先定义的事件数据在当地采集并上报。
- 数据整理:对各数据源上报后的数据进行收集、清洗和整理。
- 实时分析:对实时数据进行分析处理。
- 离线分析:通过大量数据进行模型或规则提取。
- 结果输出:将实时和离线分析的结果展现,供决策参考。
- 问题决策:根据上一步的输出,人为或自动给出下一步的行动判定,同时将判定记录保存下来,以便为后续决策提供依据。
- 数据存储:离线的原始数据、分析数据以及处理记录的保存。
- 自动修复与运维执行体系的接口,它需要将修复指令发送给运维执行体系,由执行体系将指令分发到对应节点,并进行相应的操作。
三、数据格式都包含哪些信息?
通常包含这两类信息:基础信息和扩展信息。
基础信息 需要描述最基础的应用背景信息,包括 4 个 W:
- Who (哪一个用户或服务)
- When (什么时间)
- Where (什么地点)
- What (做了什么)
扩展信息 是为了数据更好的扩展性,以应对不同业务的监测统计需求,通常会由各业务团队自行定义、解析和使用。
四、如何衡量监测数据体系的能力?
可以从 3 个维度来衡量:
- 正确性,即收集到的数据与事实的一致性。
- 全面性,即收集到的数据信息是否足以支持团队做出决策。
- 及时性,即数据的发生到能够支持决策所需要的处理时间足够短。
了解更多:https://t.zsxq.com/08AGFfCK3