在上一期《数据中枢》中介绍的配置数据管理工具 CMDB,配合云哨监控系统的预设告警策略,可以实现常用监控告警的自动化配置。今天我们的主角就是运维平台中的最强警戒线——云哨系统。
什么是云哨
TCE 提供了丰富的云产品及其配套的运营、运维能力,交付客户后这些产品自身的健康度将直接决定客户能否顺利使用其提供的资源和服务,基于此背景云哨就应运而生了。
云哨作为 TCE 运营端的一站式监控系统,为云产品与云底座提供统一监控能力,通过丰富的指标数据、实时的告警、灵活的数据展示能力,及时发现系统异常,7*24h为服务正常运行保驾护航。
在哪些场景下使用
- 故障发现和处理场景:通过云哨的告警能力及时发现系统异常,并及时发出告警通知,在处理故障过程中,可结合云哨提供的监控 Dashboard 快速定位分析异常根因,提升诊断效率。
- 故障后复盘场景:通过云哨中沉淀的指标数据、告警数据,进一步分析优化方案。
- 日常运维场景:通过云哨的系统健康度大盘与 Dashboard,实时感知产品和平台的运行状态。在变更期间,可通过告警屏蔽能力提前屏蔽预期内的告警,减少不必要的打扰。
产品的价值
- 开箱即用:内置丰富的默认告警策略和 Dashboard,无需用户配置即可实现全方位监控。
- 监控覆盖全:天然集成30 云产品的1000 监控指标与事件,覆盖可用性、性能等核心监控维度。
- 故障发现快:通过固定阈值、动态阈值等方式,及时发现异常并快速进行通知。
- 可视化灵活:通过折线图、仪表盘、饼图等多种可视化组件呈现监控数据,提升数据可读性。
关键能力
故障发现
- 丰富的监控指标与事件:云哨天然集成了30 云产品的1000 监控指标和事件,指标最小支持15秒粒度。
- 便捷的默认告警策略:云哨提供了固定阈值、动态阈值2种异常判断方式,满足各种场景下的告警需求,支持自定义告警策略配置,并内置了200 关键能力的异常告警配置,减少用户管理成本。
- 强大的指标计算能力:支持指标间进行四则运算、逻辑运算、比较运算,从而产生新指标,满足复杂故障发现场景的指标需求。
故障通知
- 实时的告警通知:告警产生后,云哨提供了短信、邮件、企业微信的方式,实现告警的快速通知。在系统修复或变更期间,预期内的告警可通过告警屏蔽避免发出,从而减少对日常运维的打扰。
- 有效避免告警风暴:云哨提供了告警聚合能力,在大规模故障产生时,云哨会将相同维度的告警合并发出,避免告警风暴。
故障恢复
- 告警自动化处理:告警产生后,除了发送通知外,云哨还提供了回调的能力,从而实现告警的自动化处理,提升止损效率。
故障定位
- 系统健康度大盘:用户可通过系统健康度大盘一眼发现系统哪些部分存在问题,从而层层下钻到具体告警。
系统健康度大盘
- Dashboard 指标分析:提供强大的监控指标可视化能力,支持监控数据的计算处理,提供多种可视化图表,核心产品均提供了内置 Dashboard,减少用户配置成本,让监控数据更可读。
- 辅助根因分析:告警联动原始日志和 CMDB 配置信息,可通过原始日志进一步分析告警根因所在。
监控作为运维中重要的一环,未来会继续引入告警知识库、调用链分析、AIOps 等更多高级能力,不断完善监控场景、提升运维效率,为客户带来更大价值,大家敬请期待!
感谢本期作者王怡宁为我们带来的专业解说,对运维平台有兴趣的朋友们可以点一下关注,咱们下周见!
-【END】-