【每日一思】2022年第3周 AIOps的一些思考

2022-03-07 13:43:02 浏览数 (1)

注:以下观点将收录在《数智万物下的运维》的“4.5.6 AIOps运维模式”

1.AIOps由来

2016年,Gartner在ITOA的基础上提出了AIOps,这里的”AI“指基于算法的 IT 运维(Algorithmic IT Operations),即,平台利用大数据,现代的机器学习技术和其他高级分析技术,通过主动,个性化和动态的洞察力直接或间接地,持续地增强 IT 操作(监控,自动化和服务台)功能。随着AI技术的发展,Gartner在随后又将AIOps定义为智能运维,而在国内,目前大家所提到的AIOps应该是ITOA与AIOps的集合。以下是Gartner在AIOps报告中放出一张经典的AIOps图,我们可以摘出AIOps的几个关键词:

  • 业务价值驱动。即,技术应用的价值应该围绕企业的价值,技术应用才会有生命力,参考本书的四个核心价值是:保障业务连续性、优化客户体验、加快IT交付速度、提升IT服务质量。
  • 平台3大关键模块。能称为AIOps,需要结合AI算法、海量数据、技术平台的三要素,笔者认为对于算法来说,当前主要分析方法有:异常检测、拓扑分析、概率分析(关联、聚类、分类等)等。
  • 融入现有的“监管控”平台体系。AIOps不是单纯的技术或平台,是一种全新的运维工作模式,与DevOps类似,CICD才是工具链视角。AIOps运维模式的落地,主要将围绕已有场景的赋能是一个快速见效的模式。

2.数据、算法、场景组成AIOps关键3要素

如Gartner定义中提出,AIOps应用需要利用大数据,现代机器学习技术和其他高级分析技术,是一种相对较高门槛的工作模式。为了更好的落地AIOps,我们需要深刻的理解AIOps的内涵,重点实现思路:以数据为基础、算法为支撑、场景为导向。

数据为先,AIOps需要快速生产高质量数据的能力。“快速”的思路可以以“中台”思路进行建设,建立统一的数据采控、实时与批量的数据处理能力、与运维相匹配的运维算法、存储方案、主数据、指标模型等;“高质量”则从将分散数据统一、在线后形成“活数据”,以及数据质量上的治理。从技术实现看,具备实时“采、存、算、管、用”的数据流动全生命周期管理的能力。

算法大脑,适配、引入特定场景下运维算法,构建算法模型体系。机器学习尤其是深度学习的大规模应用,推动了人工智能的快速发展。随着国内TOB市场的火爆,AIOps上人工智能研究及应用正处于爆发期,引入AI技术的算法有三点优势:一是工作稳定性高,人工智能可不知疲倦地进行工作,在规律性问题的分析时不受环境影响。二是降低操作风险,利用人工智能取代传统人工经验操作,可更好地避免操作风险和道德风险。三是有效提高决策效率,人工智能可以快速地对大数据进行筛选和分析,帮助人们更高效率地决策。当前,AIOps的算法最需要解决的问题是,改变人对“算法准确性”的印象,即“算法”的引入不是为了创新,而是为了确实解决真实问题而出现。

场景驱动,基于痛点、价值期望,用智能赋能运维场景,落地智能运维能力。AIOps从词来看,应该包括“AI Ops”,是用AI赋能运维场景的模式。 AIOps不是单纯的技术或平台,是一种全新的运维工作模式,与DevOps类似,CICD才是工具链视角。所以,有了上面的数据底座与算法大脑,下一步是AIOps运维模式的落地,主要将围绕场景的落地,一种是利用算法赋能己有的运维场景,另一种是算法实现原来无法实现的运维场景。前者是一个快速见效的模式,后者是应对变化而作出的变化。

3.AIOps运维工作模式

金融企业运行安全稳定,需要运维数据赋予数据洞察、辅助决策、跟踪执行的能力,提升复杂环境下的运维管理能力,即:

  • 实时获得“发生了什么?”;
  • 关联分析“为什么会发生?”;
  • 智能预测“将会发生什么?”;
  • 决策判断“采取什么措施?”;
  • 自动执行“如何快速执行?”
  • 实时感知“工作执行的效果?”

AIOps就是为了解决上述问题而生,相比传统的运维工作模式,AIOps重点不是创造一种全新的运维工作模式,而是对现有“专家经验 最佳实践流程 工具平台” 运维模式的补充,为企业运维工作提供“洞察感知、运营决策、机器执行”能力,支持向“人机协同”模式转变。

4.AIOps4个阶段

作为一种新的工作模式,AIOps将有一个长期的系统性演进的过程,所以运维组织需要建立一种能力进阶的实施路线。以下借鉴SAE(国际自动机工程师学会,原译:美国汽车工程师学会)对无人驾驶级别的分类思路,提出AIOps的级别分为L1到L4四级,见下图。其中,AIOps的模式是“人机协同”的模式,不级之间的变化,重点是在一项标准运维工作执行中“人”与“机器”的占比的分布。正如汽车企业一样,像google一把就向最高级的高度智能化建设一辆没有方向盘的无人驾驶汽车,也可以像传统车企或特斯拉这些从L1到L4按级演进,不同的企业的AIOps也可以根据企业的情况进行选择。

(1)L1:不智能

L1的无人驾驶级别中,汽车虽然有一些自动控制功能,比如ESC稳定性控制系统、AEB自动紧急制动系统等,但车辆完全是由人来控制。相应的,在AIOps的L1级时,此阶段重点是以专家经验驱动为主的工作模式,大部分标准性的工作都由人线下或采用线上工具进行操作。

(2)L2:辅助决策

L2的无人驾驶级别中,汽车在有传统汽车控制功能的基础上,增加了部分辅助驾驶功能,有一些场景中汽车可以自己运行,但驾驶员需要一直对汽车驾驶情况进行监测,并时刻准备进行紧急接管汽车。相应的,在AIOps的L2级中,此阶段重点是采用智能运维辅助提升“运行安全稳定保障”能力,人在这个级别中需要持续的推动可观测的能力。此阶段,建议运维组织重点引入AIOps成熟、擅长的算法、平台、场景,以监控、故障、系统评估等环节作为切入点。

(3)L3:自动决策

L3的无人驾驶级别中,汽车是“有限制条件的自动驾驶”,在此阶段汽车能够在一些特定场景下让驾驶员完全不用控制汽车,且能够自动检测环境,并决策切换到驾驶员驾驶模式,驾驶员无需一直对系统进行监视。相应的,在AIOps的L3级中,此阶段重点是要将部分运维场景由机器代替人决策并执行。此时,机器具备对部分标准运维工作决策并执行,AIOps除了建立运维算法的洞察与决策能力外,AIOps还可以建立执行层的自动化能力。

(4)L4:高度智能

L4、L5的无人驾驶级别中,汽车是“高度自动化和完全自动化”,在此阶段自动驾驶系统将完全自动控制车辆,全程检测交通环境,能够实现所有的驾驶目标,驾驶员(或叫乘客)只需提供目的地或者输入导航信息,在任何时候都不需要对车辆进行操控,只要输入出发地和目的地,责任完全交给车辆的自动驾驶系统。这种技术我还无法想像在运维领域是怎么样的,所以我将L4G和L5合并到AIOps的L4级,且此阶段也并非完全无人运维,其重点是运维人的工作内容发生变化,重点是承担培育机器人岗位,大部分运维场景由机器岗位主导,人只有在必要时进行干预,形成一个真正的人机协同的运维模式。

0 人点赞