风险感知(二)场景设计5要素

2022-11-16 20:35:19 浏览数 (1)

本篇接《风险感知(一)》,将采用数字化运维场景设计方法梳理风险感知场景的一些思路。分析前,先回顾一下场景设计的一些要点:

  • 场景的基础是实际运维工作,要用“连接、数据、赋能”的数字化思维重塑场景
  • 按“人、事、时间、协同、环境”5要素梳理场景
  • 场景强调多角色“组织”高效协同,是对线下流程的在线化,平台赋能场景生产力

再看看风险感知场景的要点:

  • 在线感知风险状况,即时健康质检
  • 赋能专家主动构建、调优风险感知模型
  • “数据指标 算法策略”(点)=》编排组装主题(面、兼顾非知风险)
  • 建立风险识别(感知)、决策、执行闭环

以下从“人、事、时间、协同、环境”5要素看看场景。

1.人

通常会有几个角色:

  • 一线运维专家:高频用户,具体风险感知指标、策略、任务的设计与调优者,指标生产数据模型、源数据处理规则的提供者,落实常态化风险处理,以及识别风险后的风险定界、处理、跟踪。
  • 运维管理决策:中频用户,含纵向多个层级的管理决策层,以及横向风险管理相关的流程经理,了解全局与重要信息系统健康状态,支持风险感知工作机制的落地,不仅是用户还提供资源。
  • 兄弟团队(研发、测试):中频或低频用户,从各自专业角色在线感知风险状况,埋点数据。
  • 工具团队建设者:中频用户,“采、存、算、管”数据开发,挖掘识别真实的用户需求,设计推动配套工作机制落地,开发迭代场景工具。
  • 机器人:虚拟用户,特定职责的机器人,处理辅助性、重复性、操作性的工作。

这些角色,从场景的设计上,关注度自下而上递增。比如,对于最重要的一线运维专家,可以考虑从以下问题切入梳理:

  • 【痛点】一线运维专家当前是否有主动评估运行风险的工作环节,遇到什么痛点?【期望】组织是否有主动评估运行风险的期望?
  • 【工作量】在现在被动响应式工作基础上,给一线运维专家增加主动运行评估的工作事项是否可行?
  • 【聚焦】如第3点不可行,增加重要交易系统的主动分析评估的工作事项是否可行?
  • 【机制、连接】如让一线运维专家主动分析评估工作如要成为常态化,需要配套增加哪些流程机制?
  • 【机制、连接】是否可以将主动分析评估的能力融入到一线运维已有的工作流程?
  • 【连接】运行分析涉及哪些角色,这些角色如何利用流程、数据、ChatOps连接?
  • 【数据】主动分析评估除了是某时刻切面的分析,是否可以实时高频的感知?
  • 【赋能】如何吸引一线运维专家,让他们能够主动的去增加分析指标与指标策略?
  • 【赋能】如何让一线运维专家低成本的参与到数据采集与模型构建的工作上?
  • 【归类】可以梳理哪些主题的运行风险感知?
  • 【闭环】运行风险识别后,如何确保风险得到处置?

基于上述问题如果梳理清楚,一个面向一线运维专家的风险评估场景的基本需求分析就形成了,同理其他角色的梳理。

2.事

运行风险感知分析建立在一个集合,并不断递归分解的分析主题而成,可以将每一个主题的实施内容理解为具体的事。不同主题的事,在一定程度上具备相似的组件,比如基于一个底层运维数据平台,往上指标体系、指标异常检测、指标编排、任务管理、识别风险后的闭环流程等基本功能。但同时也要认识到,上层不同主题的事很难通用化,极可能是需要定制化构建,比如:

  • 周期性的(季度、月度)重要信息系统性能管理、容量评估。
  • 周期性的(季度、月度)数据库系统性能管理、容量评估。
  • 交易系统盘前运行状态感知分析。
  • 互联网终端交易系统盘前运行状态及客户体验分析。
  • 变更窗口后首个工作日运行风险分析。
  • 某新建系统上线后试运行分析。
  • 每日重要交易系统盘后风险评估。
  • ……

3.时间

场景来源于电影。在视频领域,通常按每秒25张或30张图片组合成一个视频画面,对一段时间的视频画面进行剪辑形成一个场景,多个场景组合成为一部电影。时间对于场景的设计十分重要,通常包括时刻、阶段性、实时三种。时刻是某个特定时点,将基于一个快照数据进行分析;阶段性是针对某个开始到结束的时段进行分析;实时是针对即时、在线的感知,与监控相比,风险分析关注面,监控关注点。

时间与前面的事要素一一对应,以“某新建系统上线后试运行分析”主题的“事”为例,时间包括:新系统上线试运行期间,每天盘后分析;新系统上线后每周最后一个工作日。试运行分析非实时的感知异常,所以上述两个时点属于阶段性的分析。在场景设计上,可以考虑建立一个新建系统上线后试运行分析的主题,并为负责人分派特定时间完成的分析任务,在任务中提供风险指标及异常检测数据,人可以提出相应的专家分析意见。

4.协同

协同要考虑建立常态化的运行风险评估的工作机制,在工作机制下确保场景下多个角色能够顺畅的协作,场景目标能够有效的落地。比如在阶段性评估主题中的风险处置任务,涉及任务的分派,任务的处理时效性管理及任务的跟踪等。在实施上,协同关注人、事、机器的在线协同,可以利用流程、ChatOps、数据指标、任务管理、异常统一告警等作为多维度的连接手段,建立数字化的风险感知协同机制。

5.环境

环境包括显性环境与隐性环境。显性环境包括线下协同与线上工具,比如运行风险评估的环境主要以线上为主,评估涉及的数据生产基于运维数据平台,指标及任务的管理基础风险评估任务管理,评估分析过程基于评估场景,评估涉及的风险或问题采用在线的问题或任务管理,并利用ChatOps等手段进行触达连接。隐性环境重点指风险感知评估配套的工作流程机制,流程机制是为了场景设计能够有效落地提供的约束与保障,是为了明确场景协同人员的责权利。流程机制又包括存量的ECC管理办法、监控管理办法等配套的规范或管理要求,以及新增主题涉及的协同机制,比如前面提到新系统上线评估的例子,可以建立新系统上线试运行的工作要求。

0 人点赞