近日,第21届IFAC国际自动控制世界大会线上会议如期召开,会上腾讯数据中心与清华大学自动化系智网中心团队的贾庆山老师合作论文Predictive Maintenance of VRLA Batteries in UPS towards Reliable Data Centers (中文名称:对可靠数据中心UPS使用的VRLA电池的预测性维护)正式发布。IFAC世界大会由国际自动控制联合会组织,致力于反映世界范围内控制理论与应用发展的新成果和趋势,是自动控制领域公认的顶级学术会议。
腾讯&清华联合团队在IFAC WC 2020 线上会议发布
一、面向解决数据中心运维的实际问题
UPS供电系统是满足数据中心供电质量的核心部分,而蓄电池又是UPS系统中最重要的组成之一,是整个供电系统的“最后一道屏障”,在UPS系统的故障中,与蓄电池有关的原因占30%以上。
面对数据中心成千上万的蓄电池,通过人工智能自动化的方式进行检测和维护能极大提升效率。但现实中,AI在蓄电池故障预测的落地并不容易。首先,由于日常状态UPS中使用的蓄电池通常在浮充状态下运行,因此监控数据的信息量远不及进行放电测试所收集的数据;第二,没有统一的电池更换标准,现有的维护策略依赖于专家知识;第三,电池故障相关的数据量不足,使寻找高质量模型的任务具有挑战性。
此前行业关于用数据驱动电池寿命预测的研究,也多关注于电动汽车电池这类可循环使用的电池,针对UPS类等常态处于浮充状态电池的健康管理,此前未见已有研究。
针对这些问题,腾讯清华联合团队依托于腾讯智维平台提供的海量数据中心运营数据,研究了一种用于UPS中VRLA电池的预测维护的新型数据驱动技术。为了提高数据采集和标注的效率,团队首先对电池自然老化和内部急剧衰退两种情况,提出了一种可以自动标注电池退化时间点的算法,分别以电池内阻和电压离群程度进行自动标注,避免了数据标注过程中的重复和繁重的体力劳动。然后,针对蓄电池监控数据数据量大、数据维度低的问题,应用特征工程技术对数据维度进行扩展。在完成特征工程后,研究人员分别训练了逻辑回归、随机森林、梯度提升决策树和人工神经网络模型,对蓄电池是否发生故障进行预测。实验结果表明,AI模型对故障电池的预测准确率为98%,和现有的基于阈值的判断规则相比,AI模型平均能够提前15天预测电池的故障。
二、核心技术点解析
2.1
辅助数据标注
我们首先引入兴趣区域(Event of Interest, EoI)的概念。EoI是指导致VRLA电池更换的关键事件,这个事件通常是电池自然老化或者内部故障。随着电池的自然老化,其内部电阻会平稳缓慢地增大,从而导致电池容量逐渐下降。当电池内部出现故障时,电池的健康状态和性能都会急剧下降,严重威胁UPS安全,应当尽快更换。
为了给采集的数据做标注,我们要找到所有被更换的电池的EoI并确定其发生的准确时间。具体来说,对于某一块被更换的电池,在EoI之前和之后采集的数据点应当分别被标记为“健康”和“故障”。然而寻找EoI的工作重复性强、耗时长,需要耗费大量人力,因此我们设计了一种计算机辅助的方法,通过自动化的突变点检测算法来确定EoI发生的时间区间,从而减小人工寻找的工作量。
对于电池自然老化的情形,选择电池内阻达到5毫欧的前一个月作为突变点;对于内部故障的情形,我们发现在故障早期电池的浮充电压会出现相对剧烈的波动并呈现下降趋势。因此我们定义变量D_t来反映这一特征:
其中W=7*24*60代表一周时间,M=30*24*60代表一个月时间。突变点的表达式为tc = mint{t|Dt ≥ 3σe},是所有健康电池浮充电压的经验标准差。下图描述了突变点检测算法用于辅助数据标注的流程图:
2.2
特征设计
原始数据中电池的基本属性只有3维,在这样的低维空间中样本不容易区分开,因此我们通过一些特征设计的方法将数据映射到14维空间——3维原始特征、6维电池组相关特征、4维时间序列特征和1维组合特征。3维原始特征是指电池的电压、内阻和温度;6维电池组相关特征包括电池组内的统计特征和一致性特征;4维时间序列特征反映了电压和内阻的变化率以及梯度;1维组合特征使得模型中引入非线性。下表是对这14维特征的总结。
2.3
采样及模型训练
由于电池更换频率极低,我们采集的数据中健康样本的数量是故障样本的500倍之多,这样严重不平衡的数据将会影响模型训练的性能。为此我们进行了简单的降采样处理,使用k均值方法将健康样本聚类,然后选出每一类中离中心最近的N个点作为该类的代表,从而得到了正负样本平衡的数据集用于模型训练。
综合考虑模型复杂度、训练时长和分类性能,这里选用GBDT模型作为最终上线使用的模型。下图是模型上线部署的逻辑结构图,一旦分类模型发现一个潜在的故障数据点,便会通知专家现场检查确认,若模型判断正确则更换电池,否则将该样本点作为新的训练数据重新训练模型。
为了检验模型的性能,我们重新采集了超过2亿条电池数据,同时使用原来基于专家经验的预警方法和我们的新方法寻找潜在故障电池,比较二者的表现。如下表所示,在所有故障更换类别的数据点中,新方法比原方法的F-score提高了18%;在健康类别的数据中,新方法也带来了8%的性能提升。除此之外,新方法的预警时间比原方法平均提前15天,准确率高达98%以上,使得运维人员有充分的时间来安排电池更换计划。
三、算法落地应用
目前,上述研究成果已经被研究团队整合形成电池AI诊断服务,并在腾讯自研的数据中心基础设施管理软件平台——腾讯智维平台上发布落地,覆盖了腾讯自建数据中心的数万只蓄电池。现场专家工程师对AI故障诊断的效果进行了持续的跟进验证,验证结果表明,相比于原有的电池维护策略,AI诊断服务能够更加准确地对电池的故障状态进行提前预测,同时还可以检测出超出专家知识范围的潜在电池故障,这使得数据中心的运维工程师能够对蓄电池的维护更换进行更加有针对性地规划,有效提高了蓄电池的运维效率,进一步保障数据中心的可靠性。
在对腾讯天津数据中心3号楼的6880节电池进行现场实际落地验证发现,电池健康管理服务可以实现96.2%的告警准确率,且告警时间比实际故障提前5~30天,大大优于传统的基于经验规则的分析方案。
目前,腾讯团队正在逐步扩大落地范围,未来将通过智维平台,实现对腾讯几十万节电池的业务覆盖。