什么是AIOps
AIOps是Artificial Intelligence for IT Operations的简称,我们可以将之称之为智能化运维。
这个概念最先由IT领域的“概念制造商” —— Gartner提出。这里,我将摘抄一些来自于Gartner的具体内容(Market Guide for AIOps Platforms),帮助我们更好的理解AIOps的现状与未来。
AIOps 平台通过关联大量运营数据来增强跨 I&O 角色的决策。除了增强 IT 服务管理和自动化之外,I&O 领导者还应该使用 AIOps 平台来改进整个应用程序生命周期的分析和洞察力。
以上,是Gartner对于AIOps的精简描述。重点:
- AIOps是一个平台,能够关联大量的运营数据,支撑决策
- 目标一:增强 IT 服务管理和自动化
- 目标二:改进整个应用程序生命周期的分析和洞察力
对于AIOps有一定了解的同学,应该对下图不陌生:
图上,包含了要实现AIOps的基础架构和构件组成。一些关键性的词语包括:
- 平台
- 大数据
- 机器学习
- 摄取
- 实时摄入(流式分析)
- 存储数据的历史分析
- 拓扑发现
- 相关性
- 识别 ...等等
AIOps 平台通过明确的操作员规范或观察、不断学习和改进每个重要事件与操作响应之间的关联。AIOps 平台可能会提供建议、自动响应或触发外部自动化系统。
AIOps 不仅仅是一个数据存储和检索系统。此外,该平台不仅限于趋势分析、预测能力和查询海量数据集的能力。
AIOps 的目标是管理和提高摄取数据的质量,以便 I&O 领导者可以推动与适当实践或角色相关的多个用例。例如,模式发现可以帮助预测新出现的行为、跨 IT 实体的关系以及(IT 工件、用户和代理的)基准行为,以识别异常并向业务所有者提供相关上下文。分析还有助于自动化洞察、简化根本原因确定并支持自动化操作来解决已识别的问题(参见图下图)。
显而易见的,要实现AIOps,不会是简单迅速,一蹴而就的过程,这是一个分阶段,分步骤,多组件联动整合的过程。投资上来说,人力,资源,时间都会有不少的投入。
领域无关的 AIOps 与以领域为中心的 AIOps
- 与领域无关的 AIOps —— 供应商使用通用 AIOps 平台进入市场。这些产品往往主要依靠监控工具来执行数据捕获并满足最广泛的用例。
Vendor | Product, Service or Solution Name |
---|---|
BigPanda | BigPanda |
BMC | TrueSight Operations Management, Helix Platform |
Broadcom-CA Technologies | DX Operational Intelligence |
Devo (formerly Logtrust) | Devo |
Digitate | ignio |
Elastic | Elasticsearch |
IBM | IBM Cloud Pak for Watson AIOps |
Interlink Software | Interlink Software |
Logz.io | Log Management |
Moogsoft | Moogsoft |
PagerDuty | PagerDuty |
ServiceNow | IT Operations Management (ITOM) |
Splunk | Splunk Enterprise, Splunk Cloud |
StackState | StackState |
Sumo Logic | Sumo Logic |
- 以领域为中心的 AIOps —— 拥有关键组件但用例受限的供应商。他们基本上做的事情和以前一样,但现在他们用数学(算法)代替规则、启发式方法和指纹。这些供应商专注于一个领域(例如,网络、端点系统或 APM)。然而,以领域为中心的解决方案提供商已经做出了一些努力来混合这些类别,并演变为从他们自己的仪器工具以外的来源获取数据,并将这些数据包括在他们的分析中。 这类的厂商有:
Vendor | Product, Service or Solution Name | Domain(s) the Vendor Specializes In |
---|---|---|
Aisera | Aisera | ITSM |
Cisco | AppDynamics | APM |
Datadog | Datadog APM | APM |
Digital.ai | Numerify | ITSM |
Dynatrace | Dynatrace | APM, ITIM |
Espressive | Barista Case Management | ITSM |
ExtraHop | ExtraHop Reveal(x) for IT Operations | NPMD |
Harness | Continuous Integration, Continuous Delivery, Continuous Efficiency Platforms | DevOps |
IPsoft (Amelia) | DigitalWorkforce.ai Platform | ITSM |
Kentik | Kentik | NPMD |
OverOps | OverOps | Dev |
Pico | Corvil | NPMD |
New Relic | New Relic One Platform | APM, ITIM |
OpsRamp | OpsRamp | ITIM |
ScienceLogic | SL1 Platform | ITIM |
Virtana | Virtana Platform | ITIM |
Zenoss | Zenoss | ITIM |
市场方向
市场转向与领域无关的 AIOps
与领域无关的平台正在成为一个独立的市场,不同于以领域为中心的 AIOps 平台。这是因为在三到五年的渐进式路线图中,可以灵活地摄取日益多样化的数据集。这种路线图上的用例不仅仅关注异常情况,还包括行为分析、客户参与和识别潜在机会。未来的市场指南将专注于领域无关的AIOps。
随着企业在采用AIOps方面的成熟,他们需要一个跨越I&O、DevOps、SRE的单一领域的平台,在某些情况下还需要安全实践。
Gartner看到I&O领导人正在讨论与执行层相关的关键绩效指标和仪表盘。在所有这些情况下,以领域为中心的工具与异常检测和减少错误警报的相关性正在出现明显的区别。AIOps已经成为许多以领域为中心的市场中的一个决定性特征。
进入门槛
开源技术的商品化降低了该领域许多供应商的准入门槛,为数据采集、存储和可视化工具提供了许多选择。这些与领域无关的采集、存储和可视化技术相对容易部署和整合,引发了许多以领域为中心的供应商,包括系统集成商和管理服务提供商的产品开发或改进。用于跨度量、跟踪和日志的域诊断数据采集的开源工具的例子包括Prometheus、Elastic Beats、Jaeger和Fluentd。对于数据可视化,Gartner遇到了许多利用Grafana的实施方案,无论数据存储在哪里。
尽管AIOps尚未成熟,但只要有正确的使用案例,AIOps就会被认为是企业内部的一个有价值的工具,并能长期保持嵌入状态(见下图)。
AIOps 与中国市场分析
目前,我国的AIOps应用还处于早期阶段,主要集中于互联网、金融和通信等顶尖公司。但智能运维以传统ITOM运维平台为基础,通过接口集成,将各ITOM平台组件孤立的运维数据汇总,形成多维数据管理。根据行业平均水平,AIOps能把一年内原本32人完成的工作缩减为只需2人全职完成,为企业降本增效;
十四五国家政策提出加快企业数字化发展,人工智能产业全面提速,建设数字政府和医疗以及推动制造业优化升级。随着5G技术在中国市场全面商用,云计算、大数据技术高速发展,AlOps基于ITOM/ITOA系统将实现技术进一步演变。作为企业数字化转型关键支撑力,AlOps在下游企业间的渗透率将逐步提高。未来可期:2016年到2020年,中国智能运维市场规模由263.9亿增长到560.8亿,年复合增长率为20.1%。而预计到2025年中国T智能运维行业规模将达1093.5亿元,复合增长率达约15.9%。
Gartner数据显果,2017年中国AlOps企业渗透率仅为5%;2019年AIOps.企业渗透率为25%。随着随着企业数字化转型进入新阶段,AlOps是IT运维行业的发展必然,Gartner预测至2022年大型企业AlOps渗透率为40-50%,中小企业将逐渐利用AIOps进行业务运营和T运维,取代如今的运维工具
在中国市场内,AIOps按照产业链进行划分,可分为上中下游三个部分。上游,以软硬件供应商为代表。中游包括:原厂运维服务商,第三方运维服务商,传统ITOM/ITOA厂商,以及IT基础架构系统集成商,而下游集中于电信、互联网、金融、电力等领域:
如果将关注点放在下游,看看哪些行业会更多的渗透AIOps,则可以参考以下分析:
Elastic Stack 与 AIOps
Elastic Stack目前被广泛的用作集中式的日志分析系统。其特点是:开源,准入门槛低,天生的分布式系统,支持海量数据,兼容性强,可以兼顾格式化、半格式化、非格式化的文本数据,以及指标,地理位置等数值型数据,并能数据做多维检索和分析。是属于一个被广泛使用的与领域无关的平台。而在近两年的快速迭代中,已经在平台上集成了机器学习,APM,关联分析、上下游集成等AIOps所需要的核心能力。
而在中国市场上,Elasticsearch已经成为各大公有云厂商的标配云基础设施组件,特别是腾讯云和阿里云,开展了与Elastic公司的商业合作,在其公有云服务中提供了商业版的Elasticsearch,并且有Elastic的技术和解决方案支持。能够更好的支撑AIOps解决方案的开发和推广。
这里划重点:
- 市场转向与领域无关的 AIOps,而Elastic Stack是采用最广泛的领域无关的解决方案
- Elastic Stack在近两年的演进中,已经成为一个包含了AIOps所有能力的平台
- Elastic Stack作为一个开源技术,在进行商业化之后,包含了准入门槛低,同时产品和服务相对成熟的特点
- AIOps的建设周期一般以月甚至年为单位,建设方案适合演进式建设,Elastic Stack可以以集中式的日志分析系统作为基础,逐步演进到AIOps,投资回报率,项目成功率高。
- Elastic Stack与云计算厂商结合良好,而任何自动化计划都基于一定程度的标准化,云上的Elasticsearch服务,能更好的实现AIOps
总结
我们正在逐渐进入AIOps的时代,AIOps的重要性及其价值无需赘述。而如何快速的切入,减少试错的成本,更快的实现价值将是我们需要解决的问题。关于这一话题,接下来,我将写几篇文章,通过展示一个相对完整而简洁的AIOps场景叙事,从端到端的演示如何使用Elastic Stack上的已有功能,搭建一个基础的AIOps环境