Definition 什么是ITOM
数字化趋势
从古至今商人和企业家们一直在追求提高经营效率的方法,从最早的结绳记事,到后来发明珠算,业务在不断变革,以提高效率。
随着信息技术的成熟和发展,现代企业也开始使用IT系统提高企业的经营效率,上世纪90年代开始ERP系统逐渐成为企业信息化的标志。近些年数字化也越来越成为企业转型的动力甚至是救命稻草。
尤其是国家陆续出台多项规划文件要求大力发展基于5G、人工智能、云计算、大数据、区块链为基础的数字经济后,数字经济规模增长迅速,2019年达35.8万亿,占GDP36.2%,增长率超过15%。
企业对IT的投入也持续增加,近几年中国IT服务市场规模增速超过15%,2020年接近万亿。2019年全球IT投入3.8万亿美元。
ITOM重要性
IT运维管理,即ITOM(IT Operation Management),是管理企业IT系统的一套方法和工具。从企业规划建设第一套IT系统开始,IT运维就伴随着企业一直存在。早期IT运维企业往往是人工运维的模式,这种运维方式容易让IT部门充当救火员和背锅侠的角色。
很多时候业务系统不可用了,IT运维人员才会去解决。随着IT系统数量越来越多,越来越重要,尤其当企业上线ERP、CRM等核心战略系统后,企业的业务也完全依赖IT系统的稳定性,一旦IT系统出现问题,将直接影响企业的正常经营,IT部门面临的压力和责任也随之提高。
四川农信在进行数字化改造后,IT部门曾经估算,系统停机1分钟,损失高达1.7亿元。特斯拉在2020年9月份曾经出现过一次全球服务中断事件,当时大量车主被困,无法下车或者上车,造成了极为恶劣的影响。特斯拉股票第二天大幅下跌,一天跌掉2700亿美元。
为了保障核心业务系统的健康和稳定,企业对IT运维的投入也在持续增加。这就产生了2种趋势,服务内部的IT运维团队逐步加强ITIL体系化建设,而服务外部的IT运维团队逐步与产品团队融合,加速向DevOps团队转型。
ITOM市场分析
根据信通院2019年的数据,全球IT运维管理软件(ITOM)市场规模持续稳定增长,2018年增长了12.4%,达到了283亿美元。
从 2014 年到 2018 年,中国 IT 运维管理软件市场年平均增长率为 9.15%,高于全球平均水平,呈持续、迅猛发展的态势,2018年市场规模超过37亿元,新进入行业者较多,但从全球来看,中国ITOM市场规模还有很大的空间。
ITOM主要做什么
ITOM行业细分
现代ITOM一般由三大类模块构成:性能分析、规范化管理和自动化交付。
性能分析主要由监控基础设施的ITIM、AIOps平台构成,规范化管理主要指的是IT服务支持管理、IT资产和财务管理,自动化交付主要指的是编排和自动化系统、云迁移工具、云管理平台。
2019年全球ITOM市场同比增长10%,达到309亿美元,而这三大细分市场中,性能分析类软件市场规模达到124亿美元,占比45%,是当前规模最大的ITOM细分市场,得益于近几年DevOps模式的流行,自动化交付类软件市场也增长较快,位居第二,规模为94亿美元,占比34%,规范化管理类软件规模为57亿美元,占比21%。
性能分析细分市场
性能分析类市场下还可以进一步分为AIOps与ITIM,应用性能监控(APM),网络性能监控和诊断(NPMD)三大细分市场。
ITIM/AIOps市场份额最大,占45%,APM市场份额居于第二,占34%,但是增速是三者中最快的,高于平均4.3个百分点;NPMD市场份额最小,为21%,增速也最慢,低于平均5.9%个百分点。
从市场份额和增速看,市场对APM和AIOps的需求都非常大。
AIOps/ITIM和其他
AIOps、ITIM这一细分市场主要由基础设施监控与AIOps平台构成。基础设施监控是IT系统监控的基础,提供了从机房环境、IT设备硬件、网络监控、主机操作系统、中间件和应用在内的所有基础设施相关的可用性与资源性能监控管理手段。
随着云计算进程的加速,公有云资源的监控管理和多云管理也开始纳入了企业运维团队的管理范围。
由于管理的对象越来越多,出现问题后很难排查根因,快速异常检测和根因分析一直以来都是IT运维团队的核心痛点,过去的监控方案几乎没有在精确度、时效性、全面性上都表现很好的。随着AI技术的发展,让不少IT工程师看到了解决这个问题的曙光。
应用性能管理(APM)
APM是近几年增长非常快的市场,主要解决应用性能管理问题,主要分为数字体验监控、应用自发现/追踪和诊断、以及应用层的AIOps三大部分。
APM由于其独特的用户视角,可以帮助IT运维部门了解真实用户的体验,收到了IT和业务部门的一致认可,并且由于监控的是应用运行时的性能指标,实时性强,而且可以深入代码层发现问题根因,所以是构建AIOps根因分析必不可少的一个环节。
但是由于其采集方式需要深入应用内部,所以如果使用了不稳定的采集工具的话,会直接导致应用不可用,所以企业在部署APM时会非常慎重,并且相对会选择比较成熟的方案和厂商。
网络性能监控和诊断(NPMD)
NPMD是通过数据包深层分析技术来分析应用性能并对问题进行定位和诊断,所以需要从交换机上采集镜像数据包,通常会以硬件的形式交付给用户。
这一特点在如今云计算大趋势下,导致了其增速明显放缓,但是在某些特定行业和领域,比如金融、政府行业,NPMD由于其全量监控,并且对业务系统没有任何影响的特性,还是很受欢迎的。
ITOM 厂商介绍
ITOM行业过去主要被4家大型厂商占据,分别是BMC、CA、IBM、HP,业内成为“四大”。但现在随着云计算和AI技术的成熟和发展,原来的四大逐渐走向没落,根据最新的数据,ITOM行业Top5企业分别是:Splunk、Microsoft、IBM、Cisco(Appdynamics)、Broadcom(CA)。
这里除了IBM和Broadcom(CA)之外,都是新兴的ITOM厂商。Splunk是日志分析起家,现在为客户提供基于机器数据的分析和决策服务商。Microsoft在Azure 上的资源监控和管理服务、Cisco(Appdynamics)是将原来Cisco的网络设备监控和Appdynamics的APM进行整合,提供完整的运维监控解决方案。
这Top5的企业占据了整个ITOM市场超过1/3的市场份额,可见该市场的头部聚集效应还是比较明显的。下面会着重分析在ITOM行业非常值得学习的几家公司进行进一步分析。
Splunk 公司简介
Splunk是最近来增速非常快的一家ITOM新兴厂商,Splunk从日志分析起家,经过多年发展,现在已经成为全球第一个旨在消除数据与行动之间障碍的数据到一切平台,以使每个人都在数据时代蓬勃发展。
Splunk最近通过一系列收购扩展其产品线与功能,已经开始使用AI、业务分析等手段,帮助客户快速做出业务决策,加速创新。
Splunk公司过去4年的增速非常快,每年增速都在30%以上,2020年营收已经达到了23.59亿美元。
Splunk针对企业IT,DevOps和安全团队,推出了数据平台、IT运营与可观测性、安全三大产品线。并且将AI作为Splunk底层能力,融入了每款产品中。
Datadog
公司简介
Datadog是一家杰出的公司,它所处的云端应用监控服务市场才刚刚开始成型——他们为开发人员、IT人员和业务团队提供了一个监控和分析平台,并称之为“云时代”。
Datadog为客户的整个技术生态提供统一、实时的监控。虽然他们最开始时是从基础架构监控起步的,但现在他们已经可以提供一整套日志管理和应用性能管理(Application Performance Management,APM)的产品。
他们称之为“监测的三大支柱”,而且Datadog是第一家实现这样全方位服务的公司。
营收分析
Datadog2017年上市以来,连续三年保持了超高速增长,每年增速都在70%以上,2020年前三季度的营收已经超过2019年全年达到4.26亿美元。
产品线介绍
Datadog提供的是SaaS监控产品,主要针对DevOps团队。由如下模块组成:应用性能监控、基础设施监控、日志分析、用户体验监控、模拟用户监控、网络性能监控、仪表板、事件协作、智能告警和API。
Datadog的探针支持多达350多种应用和框架,通过配置文件中的开关启停监控,可以在几十秒内完成部署,特别适合DevOps团队和云原生系统。
Dynatrace
公司简介
Dynatrace是老牌APM公司,已经连续11年被Gartner评为APM市场份额的领导者,是该细分市场的No.1。
营收分析
Dynatrace上市以来保持了持续增长的势头,尤其是2020年并没有收到疫情的影响,反而有了超过26%的高增长,作为专注于APM细分市场的公司,2020年营收达到5.46亿美元。
产品线介绍
Dynatrace为客户提供专业应用性能监控的智能SaaS平台,有五大核心使用场景:应用性能管理、数字体验管理、数字业务分析、AIOps、基础设施监控。
Dynatrace专利的PurePath技术,可以将前后端数据关联分析,准确知道单个用户的一次操作
异常原因。
智能运维机器人Davis为客户提供了集告警、根因分析、查询等对故障排查必须的能力。
Dynatrace的OneAgent也非常强大,可以自动监控容器中的应用性能,自动发现并监控主机上的服务类型。
总结
可以看到几乎所有厂商都将AIOps作为其主要的能力,这些厂商主要分为下面两类:
一类是原来做APM、ITIM的厂商,这类厂商主要是在原有产品基础上,融合AI技术,转型AIOps,在部分场景上实现智能运维的落地,例如智能告警、智能运维助手、性能预测等。代表厂商有:Splunk、Dynatrace、Datadog、NewRelic、AppDynamics等。
这类厂商主要通过AI和大数据技术,在原有产品基础上进行迭代优化,为客户提供更加高效准确的监控服务。客户的使用习惯并未收到影响,接受程度也更高,客户通过升级就可以享受AIOps带来的更好体验。但是这类厂商的产品AI能力通常较弱,更多的还是需要依赖原有的功能给客户提供服务,AI扩展能力普遍不足。
另一类是近两年出现的新兴厂商,多是基于AI算法平台,结合运维知识图谱与数据分析平台,提供多维指标数据的智能运维,代表厂商有:必示科技、Dataflux等。
这类厂商由于没有历史包袱,底层通常是基于数据分析平台构建起来,加上算法平台和知识图谱,为客户提供的是更加通用的AIOps平台,对于不同的数据类型可以使用不同的算法进行处理,可扩展能力较强。
但是这类厂商的产品由于积累不足,在数据采集和监控方面通常表现不足,也由于没有很深的行业积累,数据分析能力多需要依靠客户自己开设计,无法提供行业级的数据分析解决方案。
AIOps 是 ITOM 行业发展方向
近几年大数据和人工智能技术逐渐成熟,运维领域多年来面临的困境有望得到突破。AIOps就是在这样一个环境下自然孕育而生, AIOps普遍认为是ITOM行业的未来发展方向。
IT运维数据天生就有数据量大,维度多,时序等特征,结合人工智能算法,通过训练,就可以让机器自动发现系统异常,快速找到关联的根因,甚至可以根据历史数据提前做出预测。
AIOps技术在国内还处于起步阶段,异常检测算法种类较多,可以实现较高的准确度,但是复杂环境下、多数据类型、多维度的根因分析依然是学术界和工业界面临的难题。
在巨大的挑战背后,也给了我们很大的机遇,如果可以准确、快速定位到问题根因,必将为运维行业带来一场革命。
由于AIOps能够为企业的IT带来实实在在的效率提升,Gartner也预测AIOps将成为未来企业IT运维的最主要的工具。
根据Gartner的分析,AIOps平台最重要的是数据质量、人工智能和机器学习算法:
数据质量成为新挑战:AIOps技能和IT运维成熟度,是通过这些工具快速实现数据价值的保证,而数据质量则成为成熟度部署的新挑战。
人工智能发挥作用:企业使用人工智能进行IT运维(AIOps),以增强或偶尔替代APM和NPMD工具。
机器学习算法愈发重要:软件商们正在制定机器学习战略(AIOps中主要采用的技术),来应对分析运维数据量巨大、数据类型繁多和数据生成速度快三方面的数据挑战。与此同时,他们也正在建立跨数据存储和人工智能实践的专业化水平。
并且随着AIOps平台的发展,IT运维工具的主要功能将会从数据获取、数据处理转向以数据分析为主。
AIOps市场分析
市场规模
信息产业是与国民经济发展息息相关的战略性、支柱性产业,云计算、大数据、移动互联网等新业态的出现驱动信息产业迈向新的阶段,IT 服务也发展为引领科技创新、驱动经济社会转型发展的核心力量。
根据艾瑞咨询的数据显示,2012 年以来,中国 IT 服务市场保持着平均 13.5%的年复合增长速度,2020 年市场规模将会达到近万亿级。
AIOps作为IT服务领域内最具潜力的组成部分,近几年发展势头异常迅猛,从全球范围来看,一些成熟的企业,在企业内部AIOps的采用已经成熟,AIOps市场仍处于高增长阶段。
根据Mordor Intelligence的分析,全球AIOps市场在2019年达到68亿美元,并且预测在2020-2025年间,每年将以27%的年复合成长率增长。
Gartner预测,到2022年,超过40%的企业会使用大数据和机器学习技术,支持和部分替代监控、服务台和自动化流程和任务。
AIOps发展趋势
迄今为止,AIOps功能主要是用来支持IT运维流程,监控或观察IT基础架构、应用程序行为和数字化体验。基于减少问题解决平均时间的能力,AIOps平台无论是在事件管理中采用机器学习技术删除重复数据,还是在APM中通过字节检测或分布式数据跟踪分析应用程序的日志数据,都被证明是合理可行的。
目前,AIOps平台提取数据类型的范围正在扩展,特别是过去仅支持日志数据提取的供应商,正在大幅扩展数据类型范围,包括数值型数据和网络数据。
Gartner预计:在接下来的5年内,AIOps平台事实上将扩展成为以AIOps功能交付的形式,而不是将AIOps的功能嵌入在APM、NPMD或ITIM等监控工具中。
此外运维部门也开始关注IT运维领域之外的用例。客户对设计仪表盘越来越感兴趣,通过此显示客户满意度、订单流程和业务健康的实时分析情况。在这种情况下,AIops的目标是向业务线负责人提供实时洞察情况,让他们了解IT对业务的影响,并帮助他们根据相关数据做出决策。
所以未来AIOps平台必将包含监控工具具备的异常检测、根因分析、故障预测功能,也同时会增加运维分析、业务分析、客户满意度分析等IT对业务影响的分析功能,以更好的满足客户对IT运维数据更深、更广的挖掘需求。
Summary 总结
ITOM是现代企业的刚性需求,目前看来AIOps是企业解决IT运维难题的有效手段。而且各大厂商提供的AIOps方案会越来越趋同,传统监控厂商的产品会逐渐演变成真正的AIOps平台,提供更多元化的数据和算法组合来应对不同的需求场景。
新兴厂商的产品也会随着客户的积累沉淀出更完整的数据集成和分析方案。未来的AIOps平台必然是以大数据分析平台为基础,通过强大的数据集成能力,数据分析能力,灵活匹配合适的AI算法,在各种不同的运维场景中为客户解决各种IT运维问题。