监测与决策

2023-03-07 13:49:25 浏览数 (1)

一、生产环境我们都需要监测什么?

  1. 资源监测,对系统基础设施的健康度进行监测,包括网络与服务器节点的监测,监测内容包括网络连接与拥堵状态、CPU 负载和内存及外部存储空间的使用状况等。
  2. 应用监测,对应用程序的运行健康度进行监测,例如,应用程序进程是否存在,是否能正常提供对外服务,是否有功能映陷,是否能正常连接数据库,是否有超时现象,是否有服务抛出的异常和告警,是否可以及时扩容以应对突增的大量请求等。
  3. 业务监测,是对业务指标健康度的监测。例如,对电商网站来说,应当包括但不限于实时的用户访问量、具体页面的浏览数、转化率、订单量和交易额等。

二、数据监测流程是什么样的?

  1. 采集上报:将事先定义的事件数据在当地采集并上报。
  2. 数据整理:对各数据源上报后的数据进行收集、清洗和整理。
  3. 实时分析:对实时数据进行分析处理。
  4. 离线分析:通过大量数据进行模型或规则提取。
  5. 结果输出:将实时和离线分析的结果展现,供决策参考。
  6. 问题决策:根据上一步的输出,人为或自动给出下一步的行动判定,同时将判定记录保存下来,以便为后续决策提供依据。
  7. 数据存储:离线的原始数据、分析数据以及处理记录的保存。
  8. 自动修复与运维执行体系的接口,它需要将修复指令发送给运维执行体系,由执行体系将指令分发到对应节点,并进行相应的操作。

三、数据格式都包含哪些信息?

通常包含这两类信息:基础信息和扩展信息。

基础信息 需要描述最基础的应用背景信息,包括 4 个 W:

  1. Who (哪一个用户或服务)
  2. When (什么时间)
  3. Where (什么地点)
  4. What (做了什么)

扩展信息 是为了数据更好的扩展性,以应对不同业务的监测统计需求,通常会由各业务团队自行定义、解析和使用。

四、如何衡量监测数据体系的能力?

可以从 3 个维度来衡量:

  1. 正确性,即收集到的数据与事实的一致性。
  2. 全面性,即收集到的数据信息是否足以支持团队做出决策。
  3. 及时性,即数据的发生到能够支持决策所需要的处理时间足够短。

了解更多:https://t.zsxq.com/08AGFfCK3

0 人点赞