之前接到一位客户咨询,说自己是300人的公司,4名运维人员。负责桌面支持,网络,视频等所有it工作。有什么办法能提高并量化it运维效率。为他解答的过程自己也整理除了一些思考,和大家一起聊聊。
如这位咨询者所描述的公司内部IT运维现状,其实是一种很普遍地存在于各类中小型企业中的IT运维挑战。多数情况下,这4名运维人员都是类似全栈工程师的角色,处理公司内部的各类运维问题。
员工大多数情况下以邮件或线下方式提出大量的服务请求,或者干脆找到自己熟悉的运维人员口头寻求帮助,久而久之,会进入一种怪圈,即每个运维工程师每天都会接收来自不同地方的大量服务请求,一整天都会十分地忙碌,但公司的同事却始终对运维部门所提供的服务不满意,认为自己的请求解决太慢,领导也对运维部门不满意,认为看不到工作的成果与工作量的度量展现,反而会听到大量对运维部门效率低下的抱怨。
出现这种怪圈的时候,证明公司的运维管理已经开始面对巨大的挑战,此时的运维部门负责人甚至公司的CIO就要考虑如何考核IT人员工作量、提升IT问题处理效率,是时候开始重新规划运维部门的运作方式了。
01. 业务战略决定IT战略
首先需要认识到一点,企业的业务战略会决定IT战略,而IT战略会决定我们运维部门的最核心职能,如果不跳出怪圈,我们的运维部门就会背离企业的IT战略,从而不能服务于更高级别的企业战略,拖累企业的发展。
从这位咨询者的问题描述来看,该运维部门的核心职能主要有两点:一是保证公司IT业务系统的稳定性与连续性(运维的核心),二是保证有能力对公司各部门提供相应IT服务(大量桌面运维)。
想做到以上两点,不妨利用业界通用的OASR模型,先梳理清楚我们拥有的运维对象(Objects)、每天所需进行的运维活动(Activities)、由这些活动衍生出来哪些典型的运维场景(Scenes)、以及完成这些场景所需的运维角色(Roles)应具备什么样的能力。
就本运维部门来看,所负责的运维对象主要有基础架构、桌面端、各类账号资源等,每天进行的运维活动就是对承载业务系统的IT资源进行维护,包括基础资源的分配、应用系统的监控、部署等,同时承接大量的诸如账户开通、资产申请、桌面配置等桌面运维所涉及的活动。
可以将上述活动归结为资源运维场景、桌面运维场景这两大类,而涉及到的角色就僧我们的四个运维工程师,他们一定要具备相应能力才能完成自己部门的核心职能。
一个好的运维部门规划应该最大化的针对自身情况和人员能力做相应的调整,而不应该一股脑照搬一些运维理论或者为了提升而专门用自身运维团队去匹配某些固定场景、流程的运维工具。
因此,根据OASR模型对运维工作所做的梳理,可以提供三点最主要的改进点,分别是:
组织保障:只有部门内部分工明确、能力到位,才能有效处置各类服务请求。
流程管控:需要将所有服务请求收敛到统一入口,建立服务台机制,从零线到三线流程规范,制定相应SLA来保证服务质量,这样才能将混乱的服务请求管理转变为高效的请求处置,同时因为有了统一的入口,也能度量相应的运维人员工作量,提高领导的满意度。
技术支撑:需要有相应的工具来辅助有限的工程师来完成上面梳理出来的两大运维场景:资源运维与桌面运维。下面将对这三点展开说明。
1)组织保障
从该公司来看,因组织架构简单,只对人员做分工即可。这里推荐使用职能型的组织分工,各成员专注于自己的工作与任务,有如下几种分工方式做参考:
- 1桌面 2基础架构(服务器) 1数据库DBA
- 1桌面 2基础架构(服务器、数据库) 1网络/安全
如果桌面运维请求量特别多的话还可以变为两名桌面运维,2桌面,1基础架构/数据库,1网络/安全。这样的分工可以在满足内部运维场景的同时,让各工程师有机会合理安排自己工作的优先级,并且在自己的专业领域内不断深耕,更高质量地完成自己的运维工作,提高用户对于其工作的满意度。
由此引出在合理分工保证员工各司其职的同时,出于持续经验的考量,企业还应建立相应的职级与人才培养机制,初期可设立两到三级(工程师、高级工程师、专家)的岗位职级,同时定期对其专业领域的工作做相应技术培训,确保其能力有一定冗余,能够支撑企业业务发展和扩张带来的更大更复杂的IT运维挑战。
2)流程管控
同样地,基于业界最佳实践ITIL体系,我们要找到最适合企业现状的调整策略,规划活动蓝图,形成适合自己内部情况的部门流程管理规划。就本例来说,当务之急是收敛服务入口、做出服务承诺(SLA)、度量运维工作。
建立统一的服务台门户,让用户可以从服务台处统一提单,服务目录的设计方式可以根据两大运维场景进行拓展,同时规定每种服务的响应与处理时间。
可以让桌面运维的工程师负责一线和部分二线的服务请求,剩余的人作为二线处置人员,兼有一些三线专家的能力,最重要的是,服务台一定要对所有服务请求做到闭环跟踪,在保证服务满意度的同时,方便后续进行度量计算来评估工作质量,如:是否满足SLA的指标要求,以及针对故障的MTTA、MTTR等。
值得一提的是,由于企业中经常会遇到大量相似的IT问题,因此知识库的建设必不可少,用户如果可以有相应的技术文章作为参考,可以自己处置大量常见的IT问题,这样可以释放部分桌面运维人力到其他更需要专业技术的运维工作中去,对此我们称之为零线服务。
3)技术支撑
为了满足资源运维与桌面运维两大场景,以及针对公司的运维流程管控,除人员能力外,我们一定要有相应的技术工具去支撑这些运维工作。
首先我们需要有灵活的流程工具去匹配流程管控的对应功能要求,需要具备的功能主要有:
- 可灵活编排的流程引擎;
- 满足从零线知识库到三线专家的功能及流程配置;
- 针对各项服务的度量指标。
其次,针对运维人员相对较少,却需要管理整个企业的IT资源的情况,我们需要有具备自动化能力的一体化平台去帮助工程师简化操作难度,完成日常的资源运维场景,该平台需具备如下能力:
- 统一的配置管理能力,辅助运维人员盘点运维IT对象;
- 全面的可观测能力,帮助运维人员做到实时感知,快速闭环的处理告警事件;
- 自动化能力,批量处理,提高运维效率,并将固定处置流程积累到平台中,成为企业的知识财产,更好地体现运维工作的价值。
有了上述三点的改进,相信该咨询者一定会在较短的时间内看到运维部门乃至整个公司的运作效率有很大的改观。
02. 咱们嘉为蓝鲸是如何做的?
1)嘉为蓝鲸一体化运维平台
嘉为蓝鲸以腾讯蓝鲸PaaS平台为底座,构建了一整套完整的运维体系解决方案,其中不仅包括实现对应运维场景的SaaS应用,还提供专业团队,辅以配套的轻咨询、方案、测试、交付、售后及客户成功整套服务,帮助企业平稳完成数字化转型升级,以下为嘉为蓝鲸产品地图全貌:
除以上这些常见运维场景外,凭借平台强大地可扩展能力,我们还可以快速构建符合企业自身运维场景的SaaS应用,正所谓授人以鱼不如授人以渔,通过双方的共同努力,使运维工作更好地服务于企业的IT战略,甚至从成本中心转变为运营中心、利润中心才是我们的共同目标,因此我们更愿意企业与我们一道加入整个蓝鲸运维开发的生态,不断发掘自身潜力,做到运维自增长,通过双方的努力,使整个运维工作水平迈上自主可控的新台阶。
针对这位咨询者的提问,嘉为蓝鲸可以提供以下的产品及服务来实现我们的3点改善目标:
① 配置管理中心
上面提到的两大运维场景,资源运维与桌面运维,涉及的内容归根结底就是我们常说的IT服务管理与IT运维管理,而这两者的连接点就是配置管理中心,因此我们要首先构建整个运维工作的基石——配置管理中心(CMDB)。
根据企业内部的常用业务系统分类,规划整个业务系统的层级,将IT资源合理地划分到各层级中,同时梳理运维活动中所需的配置属性并自动化维护起来,使得人员、系统不断地去消费并更新这些配置属性,始终保持运维配置主数据的高质量性,这样即使只有一两个运维人员也可以随时清楚地知道企业所拥有资源的实时变动情况。
与此同时,规范的配置管理工作不仅能够提高运维工作的效率,使自动化操作成为可能,还可以通过周报、月报、统计度量的方式,去量化运维人员的工作成果,满足管理者的管理需求。
- 以应用为中心:建立合理的业务拓扑,方便管理
- 数据质量:通过自动采集、流程管控,保证数据质量
- 消费驱动:通过与其他系统联动,结合自动化能力体现价值
② 可观测中心
在将资源纳管到我们的CMDB中之后,离不开的便是我们的“运维之眼”——可观测中心。
在一个四个人组成的运维团队中,做到专门有人实时利用多种监控工具去感知系统状态是不现实的,因此如何快速发现有效告警并及时处理,这部分工作很大程度上就要依靠统一的可观测中心去实现。
嘉为蓝鲸依托多年在运维领域深耕的经验,按照数据中心层次划分,从纵向构建了丰富完整的指标体系,同时还可以利用日志工具、服务可观测工具,建立功能齐备的可观测中心,实时感知业务系统状态。
当然,发现问题不是目的,快速形成事件处理闭环才是我们实现部门“保障稳定性”职能的本质目的,因此,从横向构建对于告警事件的全生命周期管理才是最终实现监控价值的有效方式,嘉为蓝鲸告警中心提供告警事件全生命周期闭环管理,可与工单系统无缝联动,有效计算MTTA、MTTR等指标,保障企业业务平稳运行。
- 监控覆盖:联动CMDB、全面覆盖metric、log、trace监控
- 关联分析:辅助判断影响范围
- 事件管理:快速形成事件生命周期闭环管理
③ IT服务管理中心
实现对于企业流程管控的要求,我们就必须利用相应的流程管理工具——IT服务管理中心去支撑。第一部分我们提到,想要规范运维部门对外提供服务的方式,就一定要提供统一的服务入口,嘉为蓝鲸可以根据不同用户设置不同门户界面,开放不同服务权限,满足企业对于不同部门的IT服务要求。
同时平台具备画布式灵活编排的能力,匹配不同企业个性化的流程需求,还可以提供知识库服务,让用户在提单时自动发现可能的解决方案,减少重复的基础IT请求,除此之外还有SLA、值班表等IT服务管理常见工具来完善整个的IT服务治理。
针对领导关心的运维人员工作量度量问题,我们还可以提供相应指标如服务请求、事件管理、问题管理绩效指标来度量运维人员的工作情况,体现运维的价值。
- 流程引擎:画布式灵活编排
- 流程集市:服务管理最佳实践
- 自动化集成:无缝对接集成外部系统
- 个性化门户编排:面对不同用户提供不同门户界面
- 统计度量:多指标量化运维服务工作
④ 自动化中心
为了使4个运维人员完成整个企业的IT运维工作,除了上述三个中心之外,平台一定要具备的就是串联各中心的自动化能力——自动化中心。
对于脚本执行、文件下发、巡检等日常运维操作,或者日志空间将满、服务进程重启等常见故障恢复动作,如果没有自动化方式去执行,将占据运维人员大量的时间去手动完成许多机械、重复的作业,往往还会因为疲劳导致一些不该发生的误操作。
同时现在企业的IT多以应用为中心,针对应用的大量复杂操作都有比较长的流程,其中涉及多个系统联动,如应用发布、灾备切换演练等,这些如果没有统一的自动化流程去规范和沉淀,很容易发生一些本不会发生的生产故障,敏捷时代,每天大量的变更发布已经不是人力所能解决的问题,没有自动化能力的支撑,运维人员将很难独立的完成这些运维活动。
- 海量运维:稳定、高效的海量执行能力
- 跨系统调度:一键自动化调度多个系统
- 应用运维自动化:将复杂的应用运维流程沉淀,提升企业发布效率
2)完整的解决方案服务体系
① 丰富的配套服务(咨询、培训、大运维)
上面提到,嘉为蓝鲸不仅提供产品来满足运维场景的功能需求,同时提供完整的解决方案来满足企业的需要,其中常见服务有咨询、培训以及针对该企业类似规模的大运维服务,来保证我们的客户取得IT的成功。
针对常见的运维场景,如CMDB建设、ITSM建设等,提供相应的轻咨询服务,帮助企业落地完整的建设管理体系,建的好,更要用的好。
针对类似咨询者公司的情况,同为我们集团的嘉为教育还可以提供相应能力提升课程的售卖,满足组织保障中对于能力提升的要求,如果类似公司还有大量桌管需求,我们还可以提供诸如SCCM的大运维服务,全方位满足对于企业运维部门运作方式提升的要求!
② 全行业落地实践(核心价值)
在运维行业深耕20余年,利用丰富的行业经验,我们在大量头部客户侧落地了嘉为蓝鲸一体化运维平台,帮助客户实现了高质量、高效率、高可靠、低成本的运维价值,在接下来的日子里我们希望与更多客户建立共同目标并为之努力,期待您的垂询!