企业监控的现状&问题
如何监控?
- 从动环到硬件到软件到应用到用户,监控对象多且杂,如何一一覆盖?
- 针对存量监控工具如何消化?
- 监控工具之间的孤岛要如何处理?
如何告警?
- 告警太多,熟视无睹,如何沉淀有效告警?
- 系统越来越大,运维成了摸象的盲人,怎样看到监控全局?
如何处理?
- 告警处理无记录,和企业运维流程管理脱节,怎样形成知识沉淀?
- 告警处理纯靠手动,每个月都在徒手处理相同的故障,如何避免?
- 企业IT业务和技术发展太快,监控能力跟不上;
- 产品化监控建设思路,导致存在各种监控烟囱;
- 市场监控产品现状和运维人对于监控认知的误区;
如何解决呢?首先需要我们认清以下3个关于企业IT监控治理的客观现实:
- 企业IT监控治理的目的是为了及时发现问题,解决问题,直至预测问题,不是为了整合监控系统。
- 企业IT架构现在很复杂,未来更复杂,难以通过1~2个监控产品就解决所有的监控诉求;也不存在这样的产品和厂商,必然各有所长。
- 新的业务、系统和场景催生新的监控需求(例如容器),企业未来监控一定是多种监控产品并存,构建功能可持续成长的监控平台势在必行
在认清监控治理的现实的基础之上,需要实现监控建设的思路的转变:由产品化思路向平台化思路的转变。
由要找一个大而全的监控产品,囊括全部的监控诉求……转变为需要一个具备功能生长性的监控平台,来承载核心监控诉求,并能统一集成外部的各种监控产品,服务于业务监控的目标……。
构建功能可持续成长的监控平台,关键在于监控平台需要具备PaaS属性:
监控iPaaS层
我们称之为监控平台层,负责提供面向各类监控对象的基本的监控采集、存储、分析和告警的能力和工具;同时需要提供PaaS集成能力,能够对接和集成外部监控工具和系统
监控aPaaS层
我们称之为监控场景工具层,通过调用平台层的监控能力和监控工具,面向具体的应用和业务,提供组装式的、复合的监控场景工具,例如:统一告警中心、监控可视化中心、故障自愈处理中心、转工单处理等。
回到文章开头的问题,基于监控平台 监控场景的模式,我们能够实现整体的监控平台体系的建立:
如此,则能够实现:
- 各类IT对象的监控需求的覆盖,并且能够通过集成方式有效利用存量的监控工具,实现监控数据之间的共享和融合;
- 通过告警中心结合CMDB数据,实现面向业务和应用的有效告警的沉淀,并作为最终的告警输出到外部的可视化系统、通知系统和工单系统等;
- 基于监控平台与ITSM系统,实现有效告警的转工单处理,实现告警处理的跟踪和知识的沉淀;基于监控平台与自动化工具的集成,实现常规告警的自动处理和故障恢复。
重塑企业IT监控治理格局
如此一来,基于平台化监控体系,我们就能够解决文章开头部分的问题,实现:多采集源兼容、监控告警统一关联处理、监控逻辑分层、监控对象灵活扩展、监控架构解耦,避免过往隔三差五重复建烟囱的企业IT监控建设模式,实现企业IT监控资源的有效整合,实现真正面向业务及应用的整体监控,重塑企业IT监控治理新格局。
作者:赵海兵