本文英文版来自于Uptime Institute,文章主要介绍了针对于新冠疫情期间数据中心基础设施的风险控制方案,本文英文版权归属于Uptime Institute。以下是正文内容:
COVID-19:基础设施风险最小化
Uptime Institute Intelligence团队
此咨询报告由Uptime Institute在其客户和成员的帮助下制作,以帮助基础设施的运营方准备并应对COVID-19的新型冠状病毒引起的影响。本报告中讨论的步骤还将帮助运营方制定针对流行病的响应策略和程序。(全文阅读需要30-45分钟)
此Uptime Institute Intelligence报告包括以下内容:
摘要
响应
业务准备
现场和人员防护
运营保障
潜在风险因素
Uptime的建议
结论
附录:资源
摘要
本咨询报告由Uptime Institute在其客户和成员的帮助下整理,以帮助基础设施运营方准备并应对COVID-19的新型冠状病毒引起的影响。本报告中讨论的步骤还将帮助运营方制定针对疫情的响应策略和程序。
响应
COVID-19被世界卫生组织定性为“大流行”(指大型且具有传染力又会造成死亡的流行病)。在这种情况下,关键的基础设施面临着特殊的挑战,因为主要的工作人员存在因疾病或隔离而无法工作的风险,同时其他的长期负面影响会使数据中心的连续性和可用性受到波及。幸运的是,严阵以待是这个行业的DNA;通过以往对性能,效率和可靠性的关注-比如过往针对断电,火灾,恶劣天气和其他潜在破坏性事件的应急演练-大多数数据中心的管理者/运营方都制定了应急计划,可以适应当前疫情的挑战。随着病毒的传播,越来越多的组织正从更新应对计划的阶段转到实施阶段。每个组织都根据现场环境,该地区的COVID-19病例数和政府规定的限制,其应对措施也各不相同。但是,所有的公司都有一个共同的优先事项:员工,合作伙伴和客户的健康和安全;业务连续性;遵守公共卫生和政府机构发布的准则和法规。该报告回顾了数据中心行业应对疫情的现状,并详细介绍了建议和可能的后续步骤。这些建议基于Uptime Institute Network成员和客户,Uptime Institute Intelligence团队和五大洲Uptime Institute顾问的反馈和评论。附录包括相关资源列表。为了进一步支持管理者和运营方,Uptime Institute将引入定期公告,其中包含有关COVID-19的更新。 2020年3月20日之后,详细信息将发布在Uptime Institute网站,Uptime的Inside Track门户和LinkedIn上。2020年3月,Uptime Institute为其数据中心运营商和合作伙伴通过全球网络展开了一系列圆桌讨论。参与者报告其组织已采取或正在考虑采取以下讨论的许多步骤。
一、业务准备
第一步和最重要的一步是做好准备。包括以下环节:
•制定具体的疫情防备计划。如果没有针对疫情的具体计划,则使用已经为公民突发事件准备好的现有应急计划。该计划应包括分级响应,清晰地明确在每个级别应采取的行动,以及触发响应升级的场景。大多数组织都有一个三到五级的应急计划,计划范围从采取合理的预防措施到无人值守,最坏的情况是将关键应用程序和操作转移到备份站点,并彻底关闭该站点。应急计划应考虑员工可能无法在短时间内进入或离开现场的情况。
•与保险公司和法律顾问商讨有关事项,例如清洁要求,服务水平协议(SLA),通知等。
•考虑IT服务(客户机)的影响。对COVID-19的响应可能会影响某些客户机的Internet流量,工作负载和可用性要求。运营方应与内部和外部客户协商,以讨论可能的影响,特别是在计划升级或迁移或增加新容量时,这些工作的延迟可能会影响业务部门的运营或项目开展。
•与员工,客户和合作伙伴保持同步。信息同步是动态的,因此,根据情况的变化,可能需要每天(甚至每天两次)频繁地进行简报,这可能会影响业务运营。
•分享最新消息和公共资源链接,以使工作人员随时了解疫情的现状以及维持安全健康工作环境的最佳做法(请参阅附录)。
•为员工提供明确的指导,如与症状(个人或家庭成员)相关的公司政策(和法规政策),可能接触疫情的情况,自我隔离要求和周期,以及病假/带薪休假限制的影响,报销指导等方面。
•定期让员工知悉当前的应急响应水平及其对日常活动的影响。
•如果将运营和维护等活动外包,请与合作伙伴协商以制定和调整策略。
•预期供应链中断。除了业务功能的核心资源外,还要采购适当的防疫物资以减少传染源的传播:消毒湿巾,洗手液,口罩,手套,非接触式温度计,适用于不同类型设备的清洁产品等。还应考虑潜在的关键备件和耗材供应链的长期中断。在中国或其他受到影响的地区所制造的组件可能几个月都无法提供。(请注意,几个主要的供暖,通风和空调[HVAC]设备制造工厂都在意大利。)
•避免不必要的风险。对于可能增加感染风险的,引起现金流风险的(如果这是一个问题)或对供应商/合作伙伴/员工带来一定压力的项目或活动,考虑推迟或取消。(请参阅潜在风险因素)。
二、现场和人员防护
尽管需要采取的许多步骤都涉及外部合作伙伴,但首先要做好当前现场和员工的防护。
现场
加强消毒工作
对于病毒疫情,消毒当然是最重要的。基础设施环境由于疫情的原因,出入管理/安保管理会面临挑战,需要有专门的管理程序并做好设备保护。以下步骤将改善防护工作:
•加强内务管理措施–每天进行多轮清洁,尤其是接触较频繁的表面(例如门把手,电灯开关,电梯按钮,扶手,水龙头把手)。如果可能的话,请让清洁工在工作时间内重复对接触频繁的表面进行消毒。(不包括工作站,办公室以及个人和共享的设备。)
•在整个设施环境中放置洗手液和消毒湿巾(带有回收装置),并贴有告示牌,提醒工作人员和访客经常使用。
•在卫生间放置标识,提醒工作人员采取正确的方法洗手。
•在设施环境张贴标识,提醒员工携带纸巾,打喷嚏和咳嗽进入纸巾,然后将纸巾放入垃圾桶中处理。
•请注意,个人储物柜可能会隐匿大量病毒,因为它们是一个很小的封闭空间,通常不通风,并且它们的表面可以使病毒存活数小时甚至几天。考虑限制使用个人储物柜,或者在每次使用后进行消毒。
•提供清洁用品,并要求员工在每班开始和结束时对所有工作区域进行消毒。
•审查设施承包清洁公司使用的程序和材料。考虑聘请一家专业清洁公司,遵循公认公共卫生机构(如美国疾病控制和预防中心(CDC))的消毒建议。
•尽可能使用喷雾消毒或雾化技术-与简单地用消毒剂溶液擦拭表面相比,这些技术更有效,因为消毒剂薄雾可长时间覆盖表面。请咨询您的清洁承包商和设备供应商,以确定数据中心特定区域中所能接受的消毒系统。
•考虑您设施的具体情况(例如,空气交换率/体积,活动地板),研究并采用深度清洁空白区域的方法。增加标准清洁操作(即公共场所,设备机柜外部等)和深层清洁(彻底擦拭所有设备,在高架地板下和吊顶上方清洁,消毒剂雾化等)的频率。酌情咨询专业清洁公司、设计/工程顾问和/或设备制造商。
•开始扩展,以针对以下两种情况确定技术空间/设备区域(空白区域,数据机房)的专业清洁供应商:
•预防措施:清洁人员使用疾控中心认可的专用清洁剂和抹布。清洁完成后,将清洁中使用的所有材料移出设施环境并作为生物危害物进行处理。
•现场确认存在COVID-19病例:清洁人员使用生化防护服,手套,鞋套等。清洁完成后,将所有袋子装袋并从现场清走。
•检查新风过滤器和HVAC过滤器的计划性更换。考虑更频繁地更换过滤器和/或使用具有更高过滤等级的滤芯。
•确保配备个人防护设备,包括口罩,手套和Tyvek(危险材料或危险品)防护服。
•考虑关闭园区中的所有健身中心和自助餐厅,只开放带有预制食品的自助售卖机/微型市场。
访客控制
从定义上来讲,对关键设施环境进行严格的访客控制-有助于减少感染风险。可考虑以下几点:
•数据中心入口大门的安全检查点应检查入口通行证,采用非接触方法(如果可能/可用)测量温度,并消毒(使用消毒剂)。只有在访客有检疫合格的情况下才允许进入园区。
•在所有入口和交通繁忙区域张贴健康自评标识。
•因为许多医疗系统目前无法进行COVID-19检测,所以采取保守的方法:将任何相关症状视为COVID-19疑似病例。参考公共卫生当局发布的筛查标准指南。
•与贵组织的人力资源(HR)和/或EHS部门协商,以制定暴露于高风险情况下(前往高感染率地点,出现症状或与疑似患者接触)的筛查问卷。要求所有个人(员工和非员工)在进入数据中心之前完成访问问卷。
员工
各国的工作惯例、立法和对工作条件和/或安全的态度可能有很大不同。同样,有关远程工作,远程访问数据和现场出勤的要求可能会因国家和行业而异。应结合人力资源和安全管理考虑以下建议的做法:
•测试所有虚拟专用网络(V**)连接以确保可靠的访问,然后考虑指导所有数据中心操作的非必需人员在家中工作。
•确保V**可以访问建筑物管理系统(BMS),以进行远程数据中心监控。
•提供特定于城市/地区的V**服务器登录说明(这很重要,因为公司的大部分劳动力将暂时远程办公)。
•确保可以访问标准操作程序(SOP)和紧急操作程序(EOP),以便在需要时进行远程配合。
•确保SOP / EOP准确无误,能够作为基础设施非正常情况下的资源来执行(指导现场工作开展)。
•根据情况,考虑推迟/取消所有面对面的会议-使用电子邮件,电话和音频/视频会议。
•提醒员工(粘贴标志,日报)执行消毒措施-提供防护装备,消毒物资并提醒其多洗手。
•评估现场人员减少带来的风险。针对员工缺勤的各种情况(例如,低于25%,25-50%,50-75%,75-99%,100%)开发现场人员配置风险矩阵。对于每种情况,需涵盖:
•业务影响(关键工作)。
•业务影响(非关键工作)。
•数据中心运营响应因素。
•对服务水平的影响。
•对团队指标的影响。
•研究和测试远程监控/管理技术(例如,遥控/远程助手),自动化。预先对技术和程序进行压力测试。
•要求任何表现出现疑似症状的工作人员在接下来的14天内进行自我隔离和远程通勤。
•建议任何与COVID-19确诊病例有密切联系的工作人员在适当的时期内进行自我检疫,通常为14天。
•审查关键员工和候补人员的任命,并确认对候补人员进行了充分的培训,并向他们简要介绍可能需要被临时替换的关键员工的角色和职责。
差旅限制
在COVID-19爆发期间,公司和政府实施了差旅管制。应当始终遵守受影响国家的政府规定。随着疫情消退,相关规定会被放宽,因此不同的政策应该在不同的时间实施。应注意以下内容:
•禁止/减少所有不必要的差旅。组织应该清楚差旅包括的范围(例如,短途本地旅行与长途/国际旅行),并制定适当的指南。
•禁止或减少机房之间的出差。如果需要在机房之间出差,则应采取措施以确保将交叉感染的的风险降到最低—一个机房可能正在备份另一个机房。
•制定最基本的维护访问计划。对于设备的基本维护,政府或公司可以适当放宽规则或提供豁免。当前实施的大多数“封锁措施”尚未对正常复工人员执行,但是其他管理部门可能会对他们控制范围内的行程实行更严格的控制。运营方必须预先计划如何进行管理,并在需要时获得必要的访问权限。访问权限可能取决于在数据中心中运行的应用程序/服务。[x1]
排班管理
理想情况下,支撑数据中心设计和运营的冗余原则也应适用于员工。当然,许多站点已经采用了这样的原则。在病毒爆发期间,应考虑以下事项:
•创建关键任务团队,确保每个团队具有足够的技能/经验组合,可以有效地管理设施(如果这样合适,并且现场人员配备充足)。站点间团队进行隔离,特别是不允许在主站点中工作的人员访问该站点的备份站点或与备份站点的员工进行任何联系。如果可能的话,现场的任务安排尽量使团队可以在设施环境的不同区域工作,不要彼此接触,也不要进入到彼此的工作环境。确保同一团队成员始终在同一班次,避免跨班次联系。
•即使在工作环境之外,也不允许团队之间交叉接触。
•不允许跨班次接触。包括同乘电梯在内的各类场景,交接班次至少保持6英尺(约2米)的距离。
•接班的轮值人员应使用消毒湿巾擦拭公共工作区域。
•根据适当的医疗或管理建议,工人在轮班期间应戴口罩。
•根据适当的医学或管理建议,培训人员(例如,高级工程师和受训人员)必须始终戴口罩。
•值班班长应定期(通过电子邮件)向经理报告员工对防疫工作(清洁消毒,保持安全距离等)的遵守情况,并进行问题预警(例如,员工问题,消毒用品短缺等)。
•考虑实施接触跟踪系统。每天登记自有人员,供应商人员和其他相关人员的健康信息和位置,以监测可能接触病毒或出现任何症状(包括感冒)的情况。
三、运营保障
为了确保维持高可用性,请检查以下方面的操作:
•根据行业最佳实践,将任务分为关键任务和非关键任务,以促进优先级的排序。
•尽可能推迟所有非必要的维护(例如,红外扫描和季度电力监控系统巡检)和重要项目。
•如果没有必要,可以在疫情解除后再重新安排高风险测试(例如,黑启动[x2]/插拔测试,柴发带载测试)。
•审查灾难恢复计划,程序和政策(例如SOP,MOP,EOP),目标声明等,并根据当前和预期情况进行必要的更新。
•开展SOP / EOP的加强培训,以及供应商培训(尽可能远程),以便在100%缺勤的情况下能够执行基本功能或操作。
•对于线缆,服务器机架,关键基础设施备件和其他部件之类的供应链中断,应提前做好预测和准备[x3]。订购更多库存,并与供应商沟通预计的货期。如果数据中心依靠供应商和/或服务商来维护关键备件和耗材的库存,请确保那些供应商已经预见并考虑了可能出现的供应链中断。
•制定计划以应对:重大设备故障发生时,由于供应链中断导致的可能无法获得关键人员或资源支持的场景。
•确保已建立的设备故障通报流程能够明确传达信息。审查EOP,以确认这些程序清楚地说明了需要采取哪些措施,以确保故障设备在无法修复时可以被隔离至安全状态;另外需要确认采取哪些步骤,可以确保业务连续性(例如,切换旁路,切换至冗余组件,将负载和/或关键应用程序迁移到备份资源)。
•检查系统架构的弹性[x4]-如果冗余不足以容纳一个或多个组件的故障,请考虑其他行动计划以确保可用性。
•加满油罐。
•对V**进行压力测试以确保系统可以处理更多容量/频率的虚拟互动,因为许多工作人员将进行远程办公。
•将其他人力服务商置于备岗状态(如果可用并且成本允许)。这可能包括来自其他供应商的人员配置资源(流动劳动力)和专家人员(电气/机械)。
四、潜在风险因素
由最熟悉环境的内部专家或正式员工来执行最可预测及例行的任务风险最低。操作人员应尝试消除其他导致不确定性的因素、过程和行为。第三方的管理需要积极关注。综上,请考虑以下几点:
现场顾问和供应商
•停止(尽可能)所有不必要的供应商访问,并主动筛选必须访问的供应商。确保他们充分了解当前的所有要求和程序。
•查看供应商培训计划,并增加主题培训,以涵盖加强后的健康和安全程序以及现场规定。
•如果有顾问或其他必要的访客在现场,请考虑采取以下预防措施:
•留一间洗手间供访客专用。离开时进行深度清洁消毒工作。
•对于访客,供应商和顾问,将“禁止饮食”的工作区域管理要求扩展到整个数据中心园区(即,非员工不得将食物带入设施环境或使用员工休息室)。
第三方设施管理和其他外包服务
根据Uptime Institute的研究,三分之二的数据中心会使用某种形式的外包服务。所有相关公司之间都需要紧密协调,以确保员工不会因相互冲突的建议/政策而感到困惑。应考虑以下几点:
•与合作伙伴就应对政策/升级程序保持沟通。
•确定各方报备人员信息更新的频率和方式。
•审查所有服务水平协议中有关每班人员配置水平和其他条款的条款。与服务商沟通,讨论他们的能力是否满足所有要求。
•确认服务商是否可以通过从其他地区调动有经验的人员来弥补当地人员的短缺。事先讨论这种可能性。
数据中心位于疫情严重区域或疫情缓和区域所受的影响
本文档中描述的许多措施是基于公司的政策,但是在疫情严重地区,设施运营可能会受到外部政府法规的约束,尤其是在会议和差旅方面。此外在这些地区,明智的做法是采用最严格的实用政策。
加强访客限制:
•考虑在所有预定的访客到达现场之前对其进行预筛选。
•在访问者访问前48小时(或尽可能长)通过电子邮件向其发送调查问卷,并要求在确认预约前完成。
•在访客到达园区时核对报备信息。仅当报备信息表明感染可能性低时才允许进入。
•未预约访客禁止进入。
•进入设施环境之前要进行温度测量(使用非接触式温度计)。
进一步保障劳动力:
•每个班次每个岗位至少指定一名自我隔离人员待命以备紧急情况。
•鉴于病毒的潜伏期目前被认定为两周,因此考虑对轮班工作的班组每两周轮换一次:A小组在一个指定的区域工作两周,不与任何其他小组交叉。接下来的两周,B组接管,A组自行隔离14天。(自我隔离应尽量减少与直系亲属以外的社会接触,并采取常识性的健康措施,以尽量减少感染病毒的风险,包括避免前往公共场所和乘坐公共交通工具。)
•重新评估如何解决现场员工的作息。考虑让一名清洁工专门负责保持休息室的卫生。考虑关闭自助餐厅和厨房区域。
•准备员工在现场住宿,但只能作为最后的手段,因为这样做实际上可能会更快地传播病毒。(有关此主题的更多信息,请参见Uptime Institute建议。)
进一步清洁:
•咨询专家,定期对整个设施进行深度清洁。
现场建设项目
对于那些参与数据中心建设,重大升级改造或扩容的组织而言,疫情带来了挑战。施工进度对成本有很大的影响,一个区域的延误会影响到许多其他的区域和其他的供应商。但是,在这种情况下建议尽量延期,并且可以采取以下措施:
•尽可能暂停所有非重点项目。
•如果项目必须继续进行,与承包商协调,以确保所有分包商/供应商采用适当的保障措施
•如有可能,为项目所有参与方开通一个单独的安全入口,并将项目人员与运维人员隔离。项目监理或参与项目的运营人员应专门履行项目职责,并且不得与其他运维人员有所互动。
托管/多租户数据中心
托管/多租户数据中心的访客可能比私有企业数据中心更多。通常会有更多的客户来访,更多的潜在客户,维护人员也更多。此外,每个客户可能有不同的政策要求,SLA和访问权限。由于这些原因,数据中心需要与客户保持密切联系。 (此外,应草拟将来的合同,阐明在发生另一种流行病时应遵循的程序。)应采取的措施包括:
•推迟所有参观或其他非必要的现场活动(如剪彩)。
•为避免不便,引起潜在的客户不满,应做到积极主动:提前告知所有受影响方,COVID-19的防疫计划及其对于客户访问基础设施环境所受的影响。这些交流应强调,正在实施的环节旨在支持数据中心基础架构的最大可用性,从而使客户受益。
•告知客户可用的技术,使他们可以远程管理业务负载(例如,通过数据中心基础设施监控,smart hands等进行远程监控)。
•考虑免费提供远程技术,或提供折扣价格,以鼓励客户使用。
•建议客户在必要时测试他们远程事件响应能力或仅联系值班人员进行支持情况下的响应能力。
•在建筑物入口,个人储物柜和交通繁忙的区域张贴有关消毒和防护措施的标志。请注意,防尾随装置可能聚集大量病毒,因为它们是狭窄的封闭空间,通常不通风,并且它们的表面可能使病毒存活数小时(甚至几天)。客户应考虑限制使用个人储物柜和/或在每次使用后进行消毒。
•考虑限制共享区域的可接近性,如客户休息室等。确保在所有共享区域(包括自动售货机旁)都有消毒用品(和回收装置)。
综合应用设施
一些小型数据中心有时被称为服务器机房,位于总部,工厂或行政中心等多功能建筑中。在这种情况下,尽管本文档中描述的原理在很大程度上适用,但策略和规则很可能由非基础设施管理部门制定。
•应明确确定关键人员的需求(维护、访问),以及普通建筑规定下的基础设施应急场景,以酌情制定例外政策。
•运营方应测试所有V**连接以确保访问可靠,然后指导所有非数据中心必需的操作人员尽可能的远程访问系统。
Uptime的建议
除了以上详细说明的响应外,Uptime Institute建议组织进一步考虑以下内容:
企业响应
•保持更新。请查阅可用的信息源以获取最新信息和指导(请参阅附录)。
•分享经验教训。由于许多组织在多个地区都有数据中心,因此响应可能因位置或设施环境特点而异。建议为那些受影响较小/尚未受影响的区域分享在疫情影响较大区域吸取的经验教训,以加强对策。
•安全证明。管理层可能需要获得允许关键员工出差的许可/官方文件(特别是在该地区跨境通勤很普遍的情况下)。
•阐明升级流程。确保业务部门(尤其是关键任务部门)充分了解响应级别和和触发升级的具体事件。
•确保业务/技术协作。鼓励业务部门就可能影响数据中心/ IT运营的政策变更与数据中心运营和IT运营进行充分沟通。例如,指导员工远程办公或指导客户使用在线服务(类似于一些零售商关闭了所有实体零售店,并宣布其在线商店仍在“营业”-这可能会推动在线流量的急剧增加,对此IT团队应该有所准备)。
数据中心响应
•检查维护优先级。审查维护计划并确定优先级:确定如果需要由骨干员工进行操作,哪些任务和问题可以降级/最后响应,或不需要处理。
•确保良好的团队沟通。约定好定期开展团队沟通,以使彼此隔离的团队按设定的时间表进行远程交流(例如通过无线电,电话/视频会议),并提前测试系统。
•避免工作空间共享。大多数数据中心的员工工作空间有限(例如BMS室,运营办公室等)。如有可能,请指定会议室或其他空间供轮班人员交替使用,例如,白班使用运营办公室,晚班使用会议室,而夜班使用设施经理办公室。设置BMS控制台和网络访问权限,以便轮班不必进入彼此的工作区。在无法做到这一点的地方,制定程序来消毒清理班组之间的共享区域。
•避免设备共享。尽可能避免共享设备-为每个员工提供他们自己的设备。
•如果必须共享设备(例如,值班电话,对讲机,平板电脑,工具,键盘等),请在每次交接班时进行消毒。
•审查外部服务。远程办公的增加意味着带宽,电力,网络等方面的压力越来越大。必要时请审查和修订备份/灾难恢复计划。
•提供紧急住房。尽管工作人员住在现场应作为最终的方案,但各地区可能会在倒班期间进入封闭状态,因此请为这种情况做好准备:
•提前与地方当局商定将数据中心指定为关键基础设施(类似于医院或警察局),并获得必要人员的差旅许可。说明该站点支持的重要业务(例如,网上银行,远程办公等)。
•获得诸如食物,基本卫生和医疗用品之类的补给。
•如有可能,找出附近的酒店(最好在步行距离之内),以便员工在轮班之间休息。确保环境(酒店或现场的生活区)有利于保持身心健康(干净私密,安静的睡眠空间;可以获得各种新鲜健康的食物;可以使用淋浴和运动设施等) 。
•审查推迟的维护。考虑推迟维护的后果,因为这可能会增加组件或系统故障的风险。与往常一样,制定应急方案,并在必要时与供应商进行协调,以确保问题得到解决。
•如果不能及时处理设备故障,请确保解决设备和数字化基础设施保护性停机/隔离的程序具有足够的弹性,以减少故障设备引起的损失(至少在负载转移之前)。
•随着时间推移和防疫规定的持续要求,需要重新审查延期的工作,并确定持续的延期是否会使风险超出可接受的范围。
•更新核心资料。在项目和维护工作减少的同时,利用更长的周期来回顾和更新计划与资料库(例如,程序,培训内容,技能清单,升级计划,后续计划)。这可以在场外完成。
•鼓励有经验的人员进行文件经验分享;可以采取注释程序和手册,进行团队视频会议等形式。
•评估“康复”员工潜在的传染风险。迄今为止的资料表明,感染病毒并康复的人只有有限的免疫力,可能会再次感染。因此,所有的规则和政策对于全员适用:在获得更多的资料之前,应考虑康复员工与其他员工均具有潜在的传染性和风险。
结论
COVID-19已经活跃了数周(在本报告发布时),但直到最近许多组织才开始进行管控。因此,许多企业处于(并保持在)被动状态。最终这种情况会被审查与迭代改进后的政策和程序来取代;受疫情的严重影响,许多政策可能会被永久性地采纳到关键基础设施的管理中。这可能会造成整体成本的增加。由于部分地区人口老龄化,尽管付出了最大努力,但数据中心可能比其他行业更容易受到COVID-19的影响。目前,行业面临着专业人员短缺的挑战。当前的事件进一步表明,行业,教育机构和贸易组织需要加大力度以加强人员的招聘和培训计划。
同样,自动化和远程监控的使用可以使设施更有效,更长时间地运行,而对现场人员的需求则会更少。疫情可能会长期加速这一方向的趋势。生产力和远程协作工具也是如此,这种疫情不会是最后一次。在过去的20年中,SARS(严重急性呼吸道综合症)和MERS(中东呼吸综合症)等病毒暴发已经造成大量的死亡和经济破坏。全球化的发展意味着将会有更多类似的情况,有些甚至会更加致命。因此,所有组织都需要随时做好准备,就像面对电源中断之类的普通事件一样。这意味着所有的措施应作为常规最佳实践进行制定和审查。对于冗余和远程管理/自动化方面的投资也应被重视。目前主流的观点是,COVID-19病毒可能会成为流行病-每年重复出现,就像流感一样。在应对当前全球健康危机的同时,企业也必须做好长期规划。企业应更新业务连续性计划,需包括预防措施(例如,要求必要的工作人员在每个“流感季节”开始时接种疫苗)和准备措施(审查数据弹性[x9],站点冗余,供应商SLA等),参考本份咨询报告。通过疫情学到的教训,Uptime Institute将制作一份咨询报告,以制定永久性的流程/策略。
附录:资源
•国家和国际新闻,公共卫生和政府机构-例如,
•美国疾病预防控制中心
•美国职业健康与安全管理局
•世界卫生组织
•约翰·霍普金斯大学
•当地资源(新闻站点,州和地区机构)
•冠状病毒技术手册(针对技术行业的参考资料)
•Uptime Institute Inside Track COVID-19公告
•Uptime Institute的COVID-19信息收集(适用于Uptime的Inside Track社区成员/ Uptime Network成员),该数据库经常更新,其中包括示例业务连续性计划,站点访问者调查表等
•Uptime实时支持或需求型应急管理资源
备注:
1、涉及到重要的基础设施业务,政府可能会提供限制豁免,如金融类、在线教育、在线医疗等等
2、黑启动是指依靠系统内部的电源,而不借助外部的电力进行的启动。
3、关于供应链问题,Uptime提的建议十分中肯和重要,部分部件的生产地一旦成为疫情地,获取就会很困难。
4、 Resilience 弹性,可以定义为"在面对环境极端以及人为错误或故意破坏的情况下维持ICT服务的能力"