8月19-20日,GOPS全球运维大会2022·深圳站成功举办,大会围绕数字化转型、降本增效、DevOps、AIOps、MLOps、可观测等话题展开,吸引了全国各地企业、专家齐聚。全球运维大会旨在帮助IT技术从业者系统学习了解相关知识体系,让创新技术推动社会进步,嘉为蓝鲸受邀出席共同探讨。
19日主会场及腾讯专场上,多位来自腾讯IEG事业群的专家进行了相关主题分享,与现场参会嘉宾共同探索数字化转型实践经验。
01. 腾讯专场主题分享
回顾往年,运维的蓬勃发展,各行业企业是有目共睹的,以腾讯为例,从运维小团队,到以蓝鲸体系为支撑的智能运维平台体系,到运维开发时代的研发运营PaaS体系,到研运一体化理念的提出,再到DataOps、AIOps的普及,运维正在一步一步的走上更大的舞台。
如今许多企业的IT部门也不再是割裂的烟囱式组织架构,越来越多的企业开始关注研发运营一体化体系的构建与转型,然而,随着疫情逐渐常态化,老生常谈的“降本增效”,也成为后疫情时代运维团队不得不面对的问题。
会上,党受辉与现场的嘉宾分享了企业在降本增效时,运维应该怎样发展。在降本方面,各个领域的重心,要转向控制运营成本,包括在人员,机器,资源等等各方面优化或改变传统的方式,探索更低成本的价值实现方法。另一方面,提高效率,在保证成本的情况下增加服务带宽,以及寻求更多SaaS场景以扩充生态实现增效。
随后,党受辉分别就机器带宽、提高人效、人员薪资、研发市场四个方面进行了深入分享。除此之外,党受辉还介绍了通过外部生态回馈内部的生态协同方式提效。通过蓝鲸社区,进行低成本的行业交流,与开源社区合作节省研发人力,通过与合作伙伴嘉为蓝鲸合作共研,节约人力与时间,更加高效的助力企业实现研运一体化转型。
19日下午,大会腾讯专场现场,来自腾讯的孙艺平介绍了腾讯内部数万研发公用的流水线的设计经验。2012-2017年间,蓝鲸平台作为IEG的运维支撑体系,通过作业平台完成了从游戏运维到整个IEG业务去Console化的使命,支撑住了海量的调度,获得内部高度的认可。随后2018年,蓝盾DevOps平台上线,以全新的流水线引擎及PaaS化机构和工业化设计,将口碑扩大至全公司。
如今DevOps流水线已经实现了腾讯数万研发的共用,并构建了独立的DevOps生态,逐步完善协同能力,助力研发效能的提升。但任何成功都不是一蹴而就的,蓝盾从初代流水线状态机发展到DevOps平台,期间经历了大大小小的“战役”,孙艺平详细介绍了整个发展历程,并将整个平台的设计思路总结为四点:
- 大平台: 全力提供稳定平台服务,从基础设施的迁移,到新功能的上线交付,严禁一切停服行为。
- 小内核: 聚焦流水线,规则简单化,提供灵活的Pipeline定义和场景延展。
- 业务自助: 实现业务效能团队便捷自助上架插件、定义流水线编排模板和规范,平台透明化
- 求同存异: 存在无法满足的场景时,可在平台服务上自建上层场景SaaS,并整合已有的研发平台资产。
由此助力业务研效的提升,随后,孙艺平详细展示了平台的具体能力,并分享了蓝盾在对外开源赋能的期望以及未来优化迭代的展望。
云原生作为数字化时代的代表,带来了以微服务,分布式为主的等全新的技术架构,以容器、K8s、虚拟化、公有云、私有云为代表基础设施及DevOps、SRE等文化理念。
而随着云原生环境的进一步落地,带来的是巨大的技术变革,陈睿分别介绍了制品交付、发布变更、故障处理、观测度量、运营成本管理以及运维智能化场景下,云原生所带来的技术的转变, 并指出,在这些场景的技术变革下,企业需要构建运维能力模型,以适应云原生模式对运维能力转型的要求。
定制业务云原生转型方案:
实现云原生应用接入,提供技术保障,结合业务场景,进行云原生能力边界拓展,以及有效推动架构的革新。
构建SaaS工具:
聚焦于业务场景,利用平台设计开发工具SaaS,提升业务效能,降低运营成本。
运营成本治理:
通过持续进行成本洞察、成本优化与成本核算。实现云原生场景下的成本分析、优化与持续迭代。
运维大数据分析:
建立数据识别与接入能力,数据模型应用与调优能力,工程化封装能力,数据建模与算法创新能力,通过大数据驱动云原生技术提高效率。
随后陈睿以蓝鲸为例,详细分享了运维云原生基础平台建设与服务体系建设的相关内容。
作为SRE的核心原则之一,可观测一词近年来十分火热,SRE中提到,只有可观测的系统,才能客观的衡量系统是否稳定可靠,那么可观测与传统监控究竟有何区别?如何进行“观测”?SRE理论体系又如何在平台中实践?腾讯SRE技术专家梁俊杰对此作出了分享。
梁俊杰首先介绍了蓝鲸可观测平台的设计理念,指出可观测的目标是:日益复杂的系统、可有效调试系统以及基于未知模式的探索,其关键在于通过Metrics、Tracing、Logging的环环相扣,建立全面的观测能力,以帮助企业对系统真实稳定性和可靠性进行统一把控。
通过建立统一的观测平台,打通metric-Trace数据,确保业务与系统真正可被感知、观测,实现故障与问题的可追溯性,是企业可观测性建设的价值所在,这也是蓝鲸可观测平台的架构设计思路。随后梁俊杰从技术与业务维度分别深入讲述了蓝鲸可观测性体系的整体设计思路与实现方法。
API网关,作为PaaS平台与上层SaaS的核心纽带,在企业运维中发挥着不可或缺的作用。朱雷以腾讯游戏的研运一体化实践为例,介绍了基于APISIX的PaaS网关应用与实践。
腾讯游戏作为海量业务的典型场景,由于海量的游戏类型、不同的开发厂商等原因,其业务架构差异很大、且极其复杂,同时各个业务相互独立,语言、运行平台、流程等等也存在很大的差异。在面对如此海量松散的异构业务,平台要能够支撑起整个运营体系,就必须具备以下能力:
- 将能力抽象打散,原子化、微服务化,建立PaaS架构;
- 通过低代码SaaS高效封装PaaS原子能力;
- 具备灵活应对不同服务场景的能力。
而以上场景,正是依赖API网关能力得以应用实现,抽象的来说,API网关就像是一个服务中心,当上层SaaS场景需要调用某一公共服务时,API网关作为中心,将平台的原子能力打通并整合,以API调用方式提供给上层服务,从而实现原子能力的复用与流程的效能提升。这就要求网关需要具备服务发现、权限管理、频率控制、动态分配等等能力。
蓝鲸API网关历经了多个版本的迭代,过程中也遇到了算法性能、框架性能不高,网络开销太大等问题,随着需求场景的增多,请求量级的快速增长,对API网关的能力要求也愈加复杂。
随时云原生时代的来临,也带来了新的网关技术,APISIX作为微网关技术的典型,其具备高性能、扩展性好、方案成熟等优势,基于APISIX技术,可以进一步提高网关在云原生环境下的能力,从而满足日益增长的业务需求。
随后,朱雷详细介绍了APISIX的相关技术内容,并分享了基于APISIX的蓝鲸网关在腾讯游戏的应用与实践案例。
02 研运一体,管理闭环
嘉为蓝鲸研发运营一体化平台,基于腾讯蓝鲸PaaS平台的技术架构,结合嘉为科技20余年研运服务经验打造,贯穿企业IT应用系统的研发测试、运维管理和运营管理全生命周期,实现企业IT研运管理的完整闭环。
- 通过DevOps解决方案提升研发质效,一站式帮助企业建立快速响应需求的敏捷研发运维体系,加速业务交付;
- 通过AIOps智能运维解决方案,覆盖客户各类运维场景,提供强大的扩展能力,满足运维管理需求,实现企业一体化运维;
- 通过WeOps一站式运维(订阅制)解决方案,打通各业务单元,贯穿各技术栈,以故障定位和全生命周期管理为核心,保障业务连续性。
嘉为蓝鲸研发运营一体化解决方案的落地,帮助用户实现一体化研运管理,从咨询、规划、设计到落地、部署、上线、监测、优化的全生命周期服务,为用户解决系统数据孤岛、业务隔离、众多的IT运维对象管理难、自动化程度低、信创产品兼容等问题,实现资源整合、管运分离、数据融合、业务贯通。