从可观测性了解 AIOps
用于 IT 运营的人工智能(或简称 AIOps)仍然是开发人员、SRE 和 DevOps 专业人士的热门话题。鉴于当今跨混合和多云环境的可观测性工作的广泛性,AIOps 的案例尤其重要。与大多数可观测性平台一样,这一切都始于您的遥测数据:指标、日志、跟踪和事件。
一旦 IT 运营团队收集并开始分析这些数据,AIOps 的优势就会迅速显现。AIOps 旨在准确、主动地识别需要关注的领域,并帮助 IT 团队更快地解决问题。作为人类,我们无法由人力来应对 PB 级原始可观测性数据的分析。而 AIOps 通过添加分析和自动化提供了一层智能,以帮助减少团队的开销。让我们深入回答有关此关键主题的常见问题!
什么是 AIOps,它对我有何帮助?
简而言之,AIOps 是软件系统通过使用 AI/ML 和相关分析技术来简化和协助 IT 运营的能力。AIOps 功能可应用于各种操作数据的摄取和处理,包括日志数据、跟踪、指标等等。
Gartner ™、Forrester ™ 和其他机构的定义和解释旨在澄清 AIOps 经常模糊不清的边界。AIOps 可以帮助显着减少检测、理解、调查、确定根本原因以及更快地修复问题和事件的时间和精力。反过来,在故障排除期间节省时间可以帮助 IT 人员将更多精力集中在更高价值的任务和项目上。
为什么需要 AIOps 作为可观测性策略的一部分?
从数字化转型计划到云迁移,再到分布式、混合或云原生应用程序部署,市场的变化正在极大地改变 IT 运营格局。
这些变化具有以下三个特点:
- 数据量:用于可观测性的数据量继续呈指数增长
- 复杂性:应用程序、工作负载和部署继续变得更加复杂、短暂和分布式
- 变化的速度:变化(应用程序和基础设施)发生的速度比以往任何时候都快
这些不是相互排斥的。在某些方面,恰恰相反,他们是互相关联,一起出现的。例如,利用自动扩展的高变化率和复杂部署意味着更高的数据量。这种日益增加的复杂性意味着人类将越来越依赖系统和自动化来跟上变化的步伐。而 AIOps 在应对这些挑战方面发挥着关键作用。
利用 AI/ML 来汇总和聚合数据,并智能地分层存储数据可以帮助缓解一些容量挑战。应用程序环境的清晰可视化描述(例如,通过基础设施和服务依赖关系图)和上下文导航有助于将故障排除工作与用户对其部署的动态架构保持一致。此外,问题的自动发现和根本原因分析将解决其他一些复杂性挑战。
可观测性产品需要跟踪所有应用程序和基础设施的变化,并将这些变化与系统行为和用户体验相关联,因为变化通常是突发异常行为的根本原因。一个具有意想不到后果的新功能的升级或补丁就是一个典型的例子。启用这些相关性有助于团队更加敏捷,并善于跟上那些有助于维持服务绩效的频繁变化。
因此,AIOps 发挥着关键作用,如果实施和使用得当,可以帮助有效应对这些挑战,让运营团队腾出时间专注于更重要的工作。
AIOps 最适合于支持哪些可观测性用例?
应用 AIOps 技术和技术已经很好地服务于几个可观测性工作流和用例,例如:
- 可以通过异常检测来检测服务降级,例如延迟的突然或意外变化。
- 海量数据,例如非结构化或半结构化的日志消息,可以自动分类、分类和汇总,以帮助简化理解和分析。
- 可以将多个症状、事件和问题关联起来,以帮助减少警报“噪音”并缩短确定根本原因的时间。
- 基于影响评估、异常程度和其他措施的自动健康评分有助于首先发现最关键的问题,从而进一步降低噪音。
在更容易理解和经过时间检验的“如果这是症状,那么这就是可能的根本原因”关系中,AIOps 可以帮助自动查找、检测和分类这些症状,并找出潜在的根本原因。AIOps 还可以启用补救措施来解决日常或琐碎的问题。在未来的博客中,我们将深入探讨关键用例以及如何识别场景以在日常运营中应用 AIOps。
AIOps 如何为组织提升业务价值?
与 IT 和软件开发中的许多计划一样,AIOps 以多种方式使组织和团队受益。虽然 AIOps 可以显着减少 IT 运营 (ITOps)、站点可靠性工程 (SRE) 和 DevOps 团队所需的日常和重复性工作,但也有显着的业务优势:
- 减少 MTTD、MTTR(平均检测时间和平均解决时间)意味着更少的服务停机时间、改进的 SLA 和更好的客户体验。
- 帮助组织以智能方式处理快速增长的数据量,降低总体拥有成本 (TCO),并缓解规模挑战。
- 减少信号和警报噪音并实施更好的自动化有助于解放运营团队采取更高价值的举措。
- AIOps 提高了组织处理不断增加的 IT 复杂性和整体变化速度的能力,使企业能够更快、更频繁地为客户带来价值。
鉴于当今云原生和混合应用程序环境中的数量、复杂性和变化速度,AIOps 正越来越多地从一种可有可无的能力转变为 IT 运营团队的关键任务能力。
您如何建立对 AIOps 的信任并使其为生产做好准备?
IT 人员、SRE 和 DevOps 工程师必须克服几个采用障碍才能成功采用 AIOps 并将其用于可观测性用例。
一方面,流行语挑战很大,AIOps 市场有很多流行语。用户面临的问题包括:这些流行语除了带来各种缥缈的概念之外,其商业价值是什么?以及与当前的监控或可观测性设置相比,AIOps 是否会帮助他们更好、更有效地检测和修复问题。除了流行语和炒作之外,用户可能并不总是知道他们是否会从特定用例的 AI/ML 中受益。
还有信任障碍。其中一个障碍是用户无法判断基于 AIOps 的见解是否准确。用户甚至可能不知道分析的全面性、使用的信息、算法如何工作、如何得出结论,或者这些结论是否与他们当前的调查相关,从而导致对黑匣子 AIOps 系统的普遍不信任。在某些情况下,由于缺乏信任而产生的组织压力或政策也可能成为采用 AIOps 的障碍。
我们的经验表明,AIOps 提供其价值的最佳方式是缓慢而稳定的建设和采用。首先,确定特定的、经过时间考验的和经过验证的用例,开始采用 AIOps 作为概念证明 (POC)。接下来,在部署的较小子集上启用 AIOps 功能,同时在每个阶段验证和量化收益和结果。一旦您看到了一些成功,就可以逐步启用更多的 AIOps 功能并转向生产环境。这种深思熟虑的部署路径缓解了与部署新技术相关的一些传统挑战,否则这些挑战可能会阻碍 AIOps 的广泛采用。
在较小的实验室或非生产环境中测试和证明技术有效性以及测量和向管理层展示结果有助于增强信心并在实际生产环境中部署 AIOps 之前获得认可。此类测试可能会发现其他差距和要求,例如数据丢失或不一致、覆盖范围浅或存储或计算不足。当您在生产中部署 AIOps 时,请检查您的可观测性解决方案是否可以适当地扩展其功能并处理您的企业工作负载。在实验室或 POC 环境中运行良好的某些 AIOps 功能可能难以跟上生产环境中通常遇到的更大规模的需求。
除了传统的 AIOps 定义之外,可观测性如何利用更深入的 AI 和机器学习?
一切从数据开始。可用于分析的数据越全面和丰富,通过应用 AI/ML 技术可以利用这些数据完成的工作就越多。AI/ML 的高级应用可以帮助推动其他用例,例如提取业务洞察力、跨多个信号获取预测或领先指标,或者在需要时定义和部署完全定制的 AI/ML。
超越传统 AIOps 的 AI/ML 使用示例是自然语言处理 (NLP)。NLP 有助于对文本数据进行分类和分类。NLP 可用于情绪分析等用例,帮助衡量与新应用程序推出或主要功能升级等事件相关的用户情绪,补充和增强可观测性。
对于针对特定的定制企业需求量身定制的解决方案,IT 团队可以决定将他们自己的 ML 建模方案用于构建、训练、测试和部署到生产中。这些模型的输出可以在自定义仪表板或报告中可视化,使 IT 组织能够满足通过开箱即用功能无法满足的特殊、一次性或特定需求。
AIOps 未来能够处理哪些用例和趋势?
随着数据从收集点、持久性(平衡数据可用性、与 TCO 的性能)、分析到可视化和修复的旅程,AIOps 将继续在这一旅程中发挥重要作用。
随着数据量的不断增加,数据收集期间的人工智能辅助分析将有助于确定哪些数据对收集和分析最有意义。在采集边缘运行 AI/ML 算法也将有助于在采集点或附近汇总数据,分发 AI 智能并减少集中所有分析的要求。分类和分类方案将动态决定传入数据是发送到暖层还是冷层进行存储,从而优化 TCO。分析将独立处理多个信号和数据,检测异常行为,然后迅速找出根本原因。随着客户对自动修复的信任开始上升,修复自动化将在更多用例和场景中变得自主。可观测性系统将开始形成更多的闭环;收集、储存、
在当今的云原生世界中,AIOps 对 DevOps 团队很重要
与许多新技术一样,AIOps 的定义及其优势也在不断发展。将 AIOps 作为可观测性策略的一部分是对不断增加的数据、复杂性和变化速度的自然反应的一部分。如果实施得当,AIOps 可以带来巨大的商业价值。
请继续关注,因为我们将在未来的博客中深入探讨常见的 AIOps 用例以推动改进和效率。