深入了解 Gartner 2024 年站点可靠性工程趋势预测中最有趣的发现。
译自 SRE Hype Cycle: Where AI Meets ‘Everything as Code’,作者 Ido Neeman。
6 月份,Gartner 发布了其 2024 年的网站可靠性工程 (SRE) 炒作周期,预测企业在制定网站可靠性决策时可采用的上升、下降和达到顶峰的趋势。AWS、Google、Microsoft、Red Hat 和 Firefly 等公司正在跨越多个领域和类别(包括人工智能,其正处于顶峰时期)推动 SRE 和平台工程领域的可能性的界限。
SRE 行业领导者正投入大量精力和工程技术于 AI,他们相信下一波激动人心的浪潮将是 DevOps 工具和平台中的嵌入式 AI 功能。但这不仅仅是提供脱离上下文的代码片段;它还关乎真正理解现代云原生环境的细微差别和复杂性,并利用 AI 的独特功能将我们的系统提升到一个新的水平。这就是我相信 SRE 的未来将侧重于提供云感知且具有语境智能的解决方案的原因。
人工智能需要了解从 Git 到 GitOps,从微服务环境、云复杂性到 CI/CD 流程和工作流的所有内容,才能提供真正有价值的协助和见解。
尽管人工智能今年是 Gartner 的一项热门 SRE 趋势,但以下是我在 2024 年 Gartner SRE 炒作周期中发现的一些最有趣领域。
统一策略即代码
最令人兴奋的发展之一是策略即代码 (PaC) 的发展势头。虽然许多公司声称正在开展 PaC,但这种实施实际上是什么样子的却有很大差异。
在 CI/CD 和运行时环境的语境中考虑 PaC 非常重要。仅仅专注于一个领域(例如仅扫描代码,仅在部署和 GitOps 中强制实施 CI/CD 策略,或仅在部署或补救后实施运行时安全性)并不能提供全面覆盖。将 PaC 和 AI 自动化结合起来生成这些策略和护栏,这才是大规模应用自动化真正的创新所在。
稳健的 PaC 也是治理即代码 (GaC) 的支柱,GaC 是一种新兴类别,也称为 DevOps 持续合规自动化。策略和治理的不同之处在于管理和维护。公共任务(例如适当的标记、消除浪费以及在每个 Kubernetes 部署中实施活动探测)都是治理的基本方面。当治理能够以代码方式管理时,就可以将其自动化并更一致地执行,从而能够更好地遵守法规要求和内部定义的策略。
将你的整个 SaaS 进行编码
编码整个SaaS 编码您的整个云足迹(“从代码到云”),使工程组织能够在所有云中应用相同的编码实践。这允许您像对待基础架构一样对待所有平台,包括监视、应用程序性能管理、版本控制系统、内容传递网络以及其他所有内容。
将各种软件即服务 (SaaS) 平台作为代码进行管理有很多好处。因此,Gartner 在 2024 年报告中纳入代码监控 (MaC) 并不足为奇。MaC 与与按代码管理相关的一切一样,使您可以像管理所有基础架构一样管理您的监控系统。
通过工作流进行基础设施编排
基础设施编排需要更好的自动化、CI 管道管理以及可移植性、可复制性和可视化,以满足当今业务所需的交付速度。CI/CD 管理的传统方法在软件和基础设施中分散且痛苦。
可重复性需要了解整个云环境和以漂移和错误配置检测的形式从部署到运行时实施护栏。通过适当的护栏来执行策略 —— 无论是安全性、成本考虑还是代码质量 —— 使平台工程师能够为开发人员提供更大的自主权。
不可变基础设施和云弹性
不可变基础设施是确保环境在部署后保持一致性和可靠性的关键。实现这一目标的一种方法是通过自动化将弹性融入云管理,能够检测和自动修复漂移和错误配置,并防止生产错误。自动修复有助于快速解决云问题,维护生产环境的完整性和性能。
许多云配置尚未准备好应对复杂场景。例如,考虑UniSuper最近发生的灾难性云中断。尽管UniSuper的基础设施经理拥有独立的备份(他应该为此获得荣誉勋章),但UniSuper仍然花费了一整周的时间才从中断中恢复过来。
这是因为从这种严重的中断中恢复不仅是备份系统和数据的问题——还需要备份配置。云弹性和自动化事件恢复和响应方面的创新将包括对云中所有系统配置进行编码备份。这有助于使恢复快速而全面,并最大程度地减少停机时间——即使在巨大的灾难中也是如此。
真正的创新带来真正的影响
如果SRE炒作周期无法兑现其承诺,那么它就只是炒作。Firefly非常自豪地被列入Gartner的用于基础设施即代码的AI助手类别,处于炒作周期的顶峰。很高兴看到像Firefly这样的行业巨头和新兴公司因致力于为SRE和平台工程师提供真正有用的创新而获得认可。
Gartner 2024年SRE炒作周期突出了行业发展趋势和方向。SRE和平台工程的未来一片光明,Firefly很高兴能够走在这些新兴趋势的前沿。