针对防火墙服务请求频繁、策略数量较多的运维痛点,来自人保科技的张建宇在2022研运一体创新峰会上,结合数据中心实践案例,介绍了依托蓝鲸平台实现防火墙策略自动化运维的设计思路、技术路径、阶段性成果及经验分享。
*注:以下内容整理自:人保科技数据中心资深主管 张建宇 于 嘉为蓝鲸2022研运一体创新峰会的精彩分享——《自动化运维场景在数据中心的落地之网络策略自动化管理》。
01. 背景
中国人民保险集团股份有限公司南中心是中国人保集团的生产中心,目前在建的还有北中心和北方同城中心。基础运维保障是南中心数据中心的核心能力,通过组织、人员、制度、流程和工具层面的完善和调优,包括引入GB/T 33136和Uptime M&O运维管理体系以体系化的方式进行管理。在此基础上,南中心还纵向拓展了网络运维、设备运维、安全运维以及灾备运维等能力,之后将横向拓展到北中心和北方同城中心。
随着管理的进一步深入,新的运维提升要求不断地涌现,比如:云运维、AIOps、DevOps等,对于南中心而言,如何实现工具层面的统一运维是提升运维效率的关键;如何利用好平台化运维提升运维管理的深度和广度是体现其运维价值的关键。
02. 搭建统一运维管理平台
2020年,根据集团科技蓝图的相关规划安排,为提升数据中心南中心机房精细化和智能化管理水平,南中心携手嘉为蓝鲸,打造“机房统一运维中台 机房运维服务场景 数据报表及展示”的统一运维管理平台。
基于蓝鲸PaaS平台底座,构建一级原生工具五大域,含配置管理域、监控与故障处理域、运维自动化域、ITSM运维流程自动化域、运维大数据域。同时,在此基础上构建了二级专用SaaS:网络管理域。在最上层构建统一信息展示窗口,以实现业务综合信息、业务监控数据、统一报表数据、网络性能数据、数据中心架构的可视化。
通过统一运维管理平台,纳管南中心机房资源,建设机房可视化、运维流程及告警体系、统一CMDB数据及网络自动化管理,逐步构建自主可控、高效敏捷的研运体系与组织架构。
03. 建设网络自动化管理SaaS
依托统一运维管理平台,南中心建设了网络自动化管理SaaS,作为集团统一网管平台的监控手段及工具的补充,整合纳管过往建设的网管系统,如传统监控、Zabbix监控、SDN监控等;在此基础上,构建专有的管理工具,如配置管理工具、自动化工具、集中监控工具等,夯实平台的服务能力。
通过网络自动化管理SaaS,实现对多种告警源的数据对接;基于配置发现工具及自动化工具,可以生成不同的防火墙脚本及交换机配置。同时,对集中监控做了优化,实现集中展示及告警分析。
04. 构建防火墙自动化运维场景
随着南北中心的整合及集团体制化改革的进程,南中心网络团队接手了防火墙的运维工作,在团队人员不变的情况下,需要额外运维接近50台防火墙,梳理超4万条策略。任务重,要求高,给网络团队带来极大的挑战。因此,提高工作效率成了重中之重。
在统一运维管理平台落地过程中,南中心已经构建了一系列基础运维的能力,如ITSM、CMDB,并能够把需求回写到数据库中,实现需求可统计、可跟踪、可回溯。网络运维SaaS依托上述基础能力,建设了5大自动化能力,工作效率得到大幅提高:
- 自动校验输入需求
- 自动生成变更方案(脚本生成)
- 自动执行变更方案(经审批的脚本)
- 自动保存配置信息(应实现的配置)
- 自动验证执行结果
同时,通过标准化、自动化、可视化、智能化的4大举措为用户提供优质高效的运维服务。
1)标准化
自动化的前提是标准化,需要统一思想,规范流程。网络团队在制定统一的策略规则后,对外开启统一的服务接口,对内加强内部运维团队意识培训。
2)自动化
① 历经三次迭代,最终实现自动生成变更。
第一次迭代:不依托平台,仅通过Excel及宏执行生成,人工清洗;缺乏回溯性,无法记录和统计;
第二次迭代:基于蓝鲸平台,将生成规则写到平台上,与ITSM相结合,可以生成对应工单、形成对应代码;没有与CMDB相联动,无法对CMDB数据做校验;
第三次迭代:结合CMDB数据,对用户输入的需求进行清洗,同时匹配到不同的产品及型号,如华为、飞塔、华三、山石的防火墙。
② 自动执行变更
用户提交服务请求后,通过SaaS生成脚本,返回到堡垒机。其中涉及到SaaS与ITSM的联动、ITSM与堡垒机不同系统间的对接,该功能还在加快推进,预计年内实现全自动的下发工作。
③ 自动保存配置信息
第一次迭代:将ITSM的数据写进工具,同时读出设备的配置数据,回写到CMDB,将ITSM审批过的数据写进CMDB;
第二次迭代:操作人员存在刷错脚本的情况,后续很难发现脚本的修改,且成本很高;在第二次迭代时,推进CMDB的AB库建设,在审批完后,将审批过的数据写到CMDB的一个库里面,在下一步自动化执行结果校验的时候,对CMDB的数据进行AB库的校验。
④ 将设备的配置信息与工单数据做比对
第一次迭代:已录入半份ITSM数据,如有哪些工单、哪些防火墙策略需要修改,但无法知道修改成什么样;因此,通过读取防火墙信息,把两边的信息结合,形成一条防火墙记录,该过程存在校验问题;
第二次迭代:将工单录入数据录入B库,自动采集数据至A库,AB库进行比对校验,针对不同的校验结果做分析,提高运维准确率。
3)可视化
通过提高效率,网络团队得以腾出手来,基于工单数据分析准确率及服务效率,同时可以审查是否存在垃圾、冗余的策略,提升设备的运行性能。
服务分析:分别以防火墙维度、公司维度展示防火墙策略、工单数据;
工单分析:按不同维度,通过一段时间内完成的工单数量统计工作效率;在工单中可以查询防火墙策略明细以及各类信息,同时可以查询服务请求与对应的变更关系,使得工作更加一目了然;
策略分析:基于CMDB的静态数据,分析防火墙的新增策略及可合并策略,以及各防火墙策略数变化趋势;基于运行过程中产生的命中率的动态数据,如策略命中情况、命中趋势,分析策略是否合理及其变化情况。
05. 经验分享
① 选用高频、重复度高、有痛点的场景 高频、重复度高的场景,能够支撑运维团队快速多次迭代;痛点代表有价值,克服痛点,SaaS才有价值所在;
② 标准化 SaaS设计之初是建立标准化的过程;
③ 做好增量,管住存量(适用于改造场景) 增量可能会线性爆炸发生,甚至非线性发展,做好SaaS就可以管好增量,然后再逐步去做存量策略及场景的优化,SaaS就有了生命力;
④ 小步快跑,快速迭代 SaaS要能不断推出功能,满足业务侧的需求,才能得到肯定与支持;
⑤ 横向扩展,纵向深挖 横向将已有能力拓展到其他数据中心或区域,纵向深挖某一场景的需求;
⑥ 自有团队,持续保障 在SaaS开发过程中,需要有自主团队来保障知识产权持续发展,同时,保障迭代持续进行。