企业总控中心(一)之可视化大屏

2022-11-16 20:38:59 浏览数 (1)

上周运维圈里有一张“杭州灵隐寺智慧寺院”数据大屏的图火了,下午借此写一篇关于ECC中的可视化大屏。

1.ECC概述


国内大部分金融企业会有一个ECC(Enterprise Command Center:企业总控中心),也有一些人称为监控管理中心、监控指标中心等,承担线下应急指挥作战室的作用,是运维组织对运行监控、现场值班、联络调度、事件处置等职责的日常工作场所。在采用两地三中心技术架构的运维组织中,主数据通常设置了物理的ECC工作空间,里面值班的人员包括所有运维团队的值班人员,是公司最核心的应急处置场所,做好ECC管理是加快应急协同的最重要措施。

ECC管理需要一个完备的工作机制。ECC是运维团队进行日常运行监控管理、工单处理、变更发布、应急处置、调度联络、服务台、应急演练等日常工作的场所。ECC管理流程主要包括:值班管理流程、ECC工作守则两点。其中,ECC定位应急指挥中心的角色,所在在值班管理流程中需要制定一系列工作机制,比如制定一线值班的工作职责,处理监控告警、应急响应与处置、问题咨询的解答、变更工单处理等,明确的工作职责有助于值班人员专注最重要的工作,提升故障响应的及时性。ECC工作守则主要是规范人员在ECC中的行为要求,比如生产应急事件遵循“先报告后处理”“先恢复后分析”原则,值班人员需第一时间向值班经理报告异常。ECC管理流程的完善是保证应急资源就绪的基础,为运维人员履行应急职责、为监控系统、应急指挥作战等提供可靠的发现环境等提供基础。

ECC管理是一个跨团队协作的组织模式。从人看,生产应急如同指挥作战,必须在统一指挥下集中优势兵力速战速决,快速恢复,主要包括:值班经理、一线运维、二三线条线专家、服务台(也可以将服务台归到一线运维),以及机器人等。值班经理负责整个ECC的总体协调;一线运维来源于多个职能线运维岗,以及SRE的OnCall岗,值班人员重点工作主要围绕在监控告警响应、故障处置、工单处理等常规性工作;二三线条线专家在无故障时并不出现在ECC,当故障集结后才会出现;服务台主要是IT服务咨询入口,以及在故障过程中的信息传递工作;机器人是辅助人工作的各类线上自动化角色。

ECC能够提供丰富的数字化工作空间。从ECC形态看,ECC通常有两个独立的房间,包括ECC值班室与ECC指挥会议室。其中,值班室主要满足一线常规值班与应急指挥协调工作,有值班与应急需要的设备,比如落实好应急环境准备,里面要有运行情况的大屏,一线运维需要的办公终端,二线现场支持时需要的终端,用于应急使用的日志、运行数据、监控告警的工具系统,用于对故障临时决策讨论的房间,以及一些联络的通讯设备,故障定级、联络人员的文档。指挥会议室通常在值班室边上,用于在应急故障过程涉及临时梳理思路,或其它涉及重大生产变更、操作涉及的相关集中指挥决策、技术支持的协同区域,所以需要协同相关的工具。

2.ECC可视化大屏


从数据赋能ECC角度,ECC需要具备能够将企业的业务与运营指标进行梳一,提供影响应急指挥涉及的指标、应急场景梳理、场景可视化、应急过程感知,以及应急决策指挥涉及的应急管理的协作平台。在场景可视化中,ECC里面通常有一块比较大的屏幕,是很多运维组织十分重视的数据可视化载体,如何利用好这块大屏是一个值得关注的工程,下面分解几个工程实施思路。

一是先明确数据可视化目标。此阶段重点是确定目标主题,不要为可视化而可视化,弄清楚要用数据可视化表达什么主题、目标用户是谁。很多厂商会将ECC可视化说成很高大上,比如ECC大屏可视化目标通常有两类,一类是用于参观,是一种低频率高价值的场景,目标用户是管理决策层或外部重要客户;另一类是用于辅助ECC日常工作,是一种高频高价值的场景,目标用户是一线值班、二线专家,以及应急集结过程中的外部研发、测试专家。

二是针对用户特点确定主题。确定用户对象后,下一步是分析用户关注或熟悉什么信息。分析信息后能够确定大屏需要有几种主题,每一种主题需要包括什么可视化信息,比如针对第一种参观模式,虽然使用频率低,但却是一种彰显组织IT技术实力、侧重于对业务关键要素即时感知的表达方式,呈现出建立业务与支撑IT的关联关系,帮助管理人员建立全局性的洞察。所以,要关注可视化效果,设计多种参观主题,比如针对人行结算中心需要有支付主题、针对银联需要有信息主题、针对双十一要有电子支付主题、针对年终结算需要有各结算步骤执行情况主题等。有效表达好主题对于IT组织的资源获取会有帮助。

三是梳理数据家底。确定ECC大屏的主题后,下一步是分析达成主题需要什么数据。数据通常由指标组成,在设计指标时需要明确指标的意义。指标从数据角度看是一种度量手段,有意义的度量需要能够让人洞察到问题。确定指标后,就要推动指标的生产,此时需要梳理数据家底,建立数据采、存、算、管的能力,明确哪些数据需要实时、实时频率是多久,哪些可以离线,加工口径是什么,数据指标owner是谁,指标质量监测手段是什么,哪些指标涉及安全风险问题等。

四是设计可视化。对于不同主题的ECC大屏有不同的可视化解决方案,思考如何量化数据来反映目标用户关注点。设计时需要关注如何布局数据指标、引入什么仪表盘、是否涉及数据交互。对于ECC参观模式,关注可视化效果的表现,需要基于关键指标,结合3D、2.5D的视觉,以及一些即时变化的交易量频繁变化效果。同时,参观模式的每个主题,最好对应一个可视化的故事,故事内容视介绍表达而定。对于实战模式,关注ECC值班涉及的应急、感知、可观测的数据可视化,关注交互与异常提示方式等。

五是选择可视化风格与形式。风格上应抓大放小,先定下来主体风格,再根据需要添加、完善细节。参观模式的ECC大屏尽量采用科技感,彰显IT科技实力的风格;实战模式的风格则关注ECC日常关键工作内容,比如能够鲜明的提示异常信息。在实施上,需要基于原型图与用户进行沟通交流,不断尝试,寻找信息图最优表现形式,选用合适的形状、颜色、布局。

六是建立可视化感知、决策、执行的闭环。比如在IT实战主题中,通常涉及关键业务系统健康感知、关键IT资源基础设施健康感知、安全态势感知、终端用户体验感知、生产事件管控主题等。在生产事件管理主题中,ECC大屏中如果出现异常信息,需要配套针对异常信息建立异常处置的机制,比如连接统一告警管理建立告警响应与处置闭环。

最后是做好大屏的运维保障。这点对于参观模式尤其重要,原本目的是为了彰显IT实力,切不可重要用户展示时出现大屏整体不可用、部分硬件异常、部分终端不可用、指标不可用、部分指标数据异常、数据更新不及时等问题。所以,需要建立相关数据指标的监控保障,对于部分指标要在可视化层面建立针对数据异常的软件层面的适应方案。

0 人点赞