如何构建 “先发制人”的远程管控系统(--内存篇章)

2021-11-20 16:28:03 浏览数 (1)

新冠疫情引发全球健康危机,全球人口被迫在家工作、学习、社交、进行零售交易、娱乐,甚至与医疗保健提供者见面。正如微软首席执行官萨蒂娅·纳德拉(Satya Nadella)在全球健康危机爆发60天左右时所说的一句名言,“我们在两个月内见证了两年的数字化转型。”

如今,所有社交媒体、视频会议、云协作平台、电子商务、远程医疗、在线教育和在线娱乐都依赖于高可用数据中心以及可靠的服务器硬件。数据中心现在被世界各国政府正确地列为重要的基础设施。我们的数据中心和驻留在那里的硬件比以往任何时候都更需要保持在线,以便数字经济保持正常运行。

业务连续性

根据美国正常运行时间研究所(Uptime Institute)的2020年数据中心调查,与前几年相比,疫情爆发后,工作与生活有很多的事情从线下转到线上。“停机频率令人不安,更大的停机正变得更具破坏性和成本”。

上海泓戟致力于为行业客户提供业务连续性的解决方案,以创新的手段实现运维极简化和智能化。

新一代edgeCentralMX敏捷远程管控系统,将英特尔公司MFP(Memory Failure Prediction)内存故障预测方案集成在管理系统中,集中统一的可视化界面实现对广泛连接的数据中心和边缘计算场景的服务器进行远程管控和预测性维护。

作为数据中心发生的三大硬件故障之一,内存故障直接影响服务器的可靠性。此外,内存故障可能会产生毁灭性的影响,如何给数据中心运营商提供未来中断的足够早的警告,以便采取先发制人的行动?是当前亟待解决的问题。

利用机器学习来分析实时内存健康数据,可以提前预测此类故障。机器学习是一种自动建立分析模型的数据分析方法,它使用的算法是从数据中迭代学习的,这样计算机就可以找到隐藏的见解,而无需对在何处查找这些见解进行显式编程。

分析实时内存运行状况数据和避免内存故障的能力最终会为客户带来更好的体验。对于在线服务平台和云服务提供商这样的组织来说尤其如此,它们严重依赖于服务器硬件的可靠性、可用性和可维护性。正是这些类型的企业正经历着今天不断飙升的需求。

通过在其数据中心部署内存故障预测解决方案并将其集成到现有管理系统中,IT员工可以分析其服务器内存故障,减少停机时间,并改进其当前的双列直插式内存模块(DIMM)更换策略。

这种内存故障预测解决方案使用机器学习来分析服务器内存错误,直至DIMM、存储组、列、行和单元级别,以生成每个DIMM的内存运行状况得分。随着时间的推移,健康评分的变化可以在影响发生之前就发出问题的信号,为转移工作量和/或采取其他行动提供足够的前置时间。

为了更好地了解内存运行状况评分是如何生成的,有必要了解内存故障预测引擎被放置在BIOS固件中,并在内存错误发生时接收警报。当服务器在特定内存区域中出现突发错误时,将检查DIMM运行状况评估模型(DHAM),以评估是否需要修改受影响的DIMM的运行状况得分。如果是这样,则相应地更改分数并将其传递给基板管理控制器(BMC)。最终通过IPMI over LAN传递给edgeCentral MX敏捷远程管控系统。

一些用户测试部署表明,如果在其整个服务器网络上部署edgeCentral MX敏捷远程管控系统和英特尔公司MFP(MemoryFailure Prediction)解决方案,由硬件故障引起的服务器崩溃可减少50%以上。

0 人点赞