IDC续航焦虑,何以解忧?(下篇)

2020-05-13 13:10:33 浏览数 (1)

导语

在上篇中,我们探讨了蓄电池应用环境的要求以及蓄电池管理参数的设置对蓄电池安全稳定运营的影响。

如果蓄电池工作环境良好,电源设备的电池管理参数设置也完全匹配了蓄电池的要求,是否仅依靠自动管理功能,就可以提高电池使用寿命了呢?今天小编将就此和大家进一步探讨。

一、蓄电池放电维护方式

阀控式铅酸蓄电池内部由正极板、负极板、AGM隔板、电解液组成,正负极板上的活性涂膏物质与电解液在充放电过程中进行化学转换,若长期保持充电而不进行放电循环,极板上的涂膏物质将失去活性,导致蓄电池容量性能下降。

图1,极板涂膏前后

现有的大型数据中心大都是按照A级机房标准建设的,当外市电出现异常时,机房内的中低压配电设备会根据逻辑执行相应的自动切换,因此蓄电池放电时间最长一般在1分钟左右(双路市电停电后由柴发启机带载时),而大部分场景只有10至30秒(单路市电停电后中低压设备自动切换时)。更何况数据中心选址时已充分考虑了当地的电网供电环境,所以平均每年蓄电池因市电异常引起的被动放电次数也屈指可数。为了保持蓄电池的良好性能,就需要运维人员定期主动执行放电维护工作,同时通过维护时获取的数据更直接地对电池健康程度进行评估。那么应该如何进行放电维护呢?先来了解以下两个特点:

1.蓄电池应避免小电流长时间放电

蓄电池应避免小电流长时间放电(电流小于0.05C,不同厂家要求略有不同),否则正、负极板深层的物质将有可能参与反应变为体积较大的硫酸铅晶块,且很难还原;另外,小电流放电也无法实现检查发现落后电池的目的。

2.蓄电池放电测试的时间应以容量为优先判定条件

蓄电池放电测试的时间应以容量为优先判定条件,而不是固定的放电时间或者放电测试截止电压,因为每套系统的负载大小是不相同的,当蓄电池进行放电测试时的电流会存在大小差异,同样导致了截止电压、以及可放电容量的差异(放电电流越大,活性物质利用率反而越低,因此可放电容量越小,放电截止电压可以更低),参见图2。

图2,电池放电电流与截止电压的关系

因此主动放电测试必须在一定负载条件下进行,并根据放电电流大小调整测试时间以及测试截止电压。某机房分别对A品牌、B品牌两个电池厂家的放电维护要求进行整理如下:

表1,两个品牌电池对放电测试条件的要求

放电条件

A品牌电池

B品牌电池

备注

放电电流小于0.05C

只进行放电功能测试,不进行放电性能测试;每半年手动均充一次,持续时间12小时;

只进行放电功能测试,不进行放电性能测试;每季度手动均充一次,持续时间10小时;

1、放电功能测试,即利用配电切换测试机会,检查电池及电源设备短时间能否放电;2、放电性能测试,即对电池进行一定时间的放电,通过电压、电流、内阻、温度等数据评估电池性能;

放电电流满足(0.05~0.1C)之间

每年一次放电性能测试,放电容量20%-30%;半年时手动均充一次,在年度放电测试后自动均充一次,持续时间12小时;

放电电流满足0.1C以上

每半年一次放电性能测试,放电容量50%;每半年放电测试后自动均充一次,持续时间12小时;

每半年一次放电性能测试,放电容量50%;每半年放电测试后自动均充一次,持续时间10小时;

基于以上要求,对该机房内满足不同放电电流条件的蓄电池占比分析如图3所示,当前机房内大约有一半的蓄电池因负载率过低,无法利用实际负载进行放电测试维护。若要保持蓄电池良好的活性,就必须通过机架式假负载来创造放电测试的条件。根据业务部署的进度安排,目前国内很多大型数据中心在运营初期都会遇到同样的问题,建议在运维工具采购时增加一部分假负载,既可以用于运营阶段的机柜PDU改造压测等测试场景,也可以用于定期的放电测试(推荐选用PTC陶瓷电阻型机架式假负载,不会出现传统假负载的红热现象,用于正式运营环境下相对更安全)。

图3,满足不同放电电流条件的蓄电池占比分析

另外在电池厂家供货周期能够得到保障的前提下(比如建立多个供应商资源池),且业务部署计划能够提前准确制定,新建数据中心甚至可以考虑在IT综合布线前分批次完成蓄电池的采购、安装调试及测试(整个交付周期主要取决于供货时间),这样也可以一定程度上降低机房的TCO成本。当然,这种方式也会存在原材料价格波动的不确定性,还需要综合时间因素来考量成本的可优化性。

二、蓄电池状态评判

蓄电池状态评判需要对电池外观、电压、电流、内阻、温度、时间等因素进行综合考虑,同时要结合充电、放电两种工况,并且还要对当前、以及历史的数据做一定纵向、横向的分析,因此是一项非常复杂的工作。面对在网运行的海量蓄电池,作为运营管理者来说,需要寻找一套相对简单的评判方法和标准,其中最常用一种的就是对比法(由于内阻的测量数据取决于仪器检测原理,因此为了保证对比结果的准确性,进行内阻数据分析时一定要在相同测试仪器条件下进行):

1.横向对比

即通过对同组电池的不同单体之间进行对比,或者对相同运行环境、负载率、维护方式的不同电池组之间进行对比,找出差异。

2.纵向对比

即通过对相同电池在不同历史时期,但相同运行环境、负载率、维护方式等条件下的数据进行对比,找出差异和变化趋势。

3.标准参数对比

即根据厂家提供的各种参数曲线表,通过模拟测试条件,将电池的实测数据与标准参数进行对比,找出差异。

在此基础上还需要意识到一个问题,也就是不同厂家对蓄电池异常状态的评判标准是存在差异的。表2中体现的是A品牌和B品牌两个蓄电池厂家内部对电池数据的异常范围定义。从表中可以看到两个厂家在某些参数上的评判标准存在较大的不同,这对于动环等DCIM系统自动告警策略的制定来说,会产生一定的难度。因此若一个数据中心同时使用多个品牌蓄电池时,建议参考国标或行业标准,组织各厂家共同制定相互认可的统一异常判定标准。

表2,不同厂家对电池部分数据的异常判据

事项

A品牌电池异常标准

B品牌电池异常标准

备注

外观

外壳

变形、鼓胀、开裂、漏液

_

端子

极柱变形或爬酸、端子螺纹损坏无法拧紧

电压

浮充状态

超过14.1V并持续72小时(即12V电池单体浮充电压与平均值差异大于0.5V)

同批次电池

均充状态

均充电压>16.5V

均充电压>16V

同批次电池

放电状态

低于同组平均电压0.6V,或电压低于10.80V,二者之一

内阻

浮充状态

单体内阻超过同组电池内阻平均值2倍以上;或单体内阻检测值超过5mΩ以上;

单体内阻超过同组电池内阻平均值50%以上

对于内阻异常的蓄电池需重点关注,并通过放电测试数据来进行综合判断

以上所列出的标准是针对单体电池的异常评判,若要对蓄电池组整体健康状况进行评估,则应通过容量测试。所谓电池容量测试,即使用恒定的负载对蓄电池组进行放电,直到电压降至放电保护截止电压为止,并根据该过程获得的相关数据计算出蓄电池的实际容量。容量测试有两种可选方案:

1.使用直流放电测试仪进行放电

优点是可以单独测试某一组电池,而不影响并联的其它电池组,且放电电流恒定,可以比较准确地得到电池实际容量。缺点在于放电测试前后需要对电池组的接线端子进行拆装,存在一定安全风险;

图4,蓄电池放电测试仪

2.电源设备自带的容量测试功能进行放电

利用UPS、HVDC等电源设备自带的容量测试功能进行放电(如图5),优点在于不用将电池拆除并脱离系统,只需在设备面板执行相关操作即可,且放电过程中若突发异常故障,电源设备会自动终止放电测试并恢复正常模式运行。但是这种方法利用的是实际负载放电,因此大部分情况无法实现恒电流方式,容量计算准确率会低于上一种方式,并且无法对并联电池组中某一组蓄电池单独进行测试。

图5,电源设备自带容量测试功能

由于容量测试过程所需时间相对更长,且存在一定的风险(比如第一种方式在拆装电池组端子时发生意外短路,或第二种方式测试快结束时突发市电停电、蓄电池无法再满足后备需求),因此一般会有策略地抽取部分电池执行容量测试,比如按运行环境、负载率、维护方式等条件对电池组进行分类,然后从每一类中随机抽测部分样本,这样便可以完成整体的状态评估,以决定蓄电池未来一段时间内的运维对策,如图6所示。

图6,电池容量测试判据

为什么蓄电池容量低于初始值的80%就一定要更换呢?原来计划后备时间15分钟,如果我们接受一定程度的后备时间减少,是不是就可以继续使用呢?答案是否定的,因为这个要求并不仅仅只考虑了后备时间的变化,而更重要的是此时的蓄电池内部已经开始出现了较严重的老化,存在电解液干涸甚至热失控的风险,下图中的画面是所有机房都不希望看到的。

图7,蓄电池热失控及起火故障案例

三、监控平台管理

现今大多数机房通过配置电池监控仪设备,都实现了蓄电池单体电压、电流、内阻、温度数据的实时监控,相比起传统的手持仪器测量方式,在线监控能够快速便捷地采集到所有运行数据,更重要的是监控平台中的各种历史数据也都能随时调用,方便进行追溯和分析。除此之外,在线监测也实现了异常蓄电池的快速报警,提高了故障处理及时性。以某机房为例,可以通过多个方式实现蓄电池实时监测及报警功能:

1.电池监控仪

作为电池末端数据的采集设备,其内部软件也具备告警功能,安装调试阶段由厂家工程师根据现场电池配置情况进行参数设置,电池监控仪主机会根据检测值自动触发报警,可通过设备自带的显示面板查看或上传至本地动环系统;

图8,某电池监控仪内部参数设置项

2.本地动环系统

根据电池监控仪上传的数据,动环系统按照协议解析,可以将其中部分状态量以告警形式呈现出来,同时现场运维人员也可以自行设定模拟量的报警阈值,由动环系统根据采集数据自动触发报警;

3.远程集中管控平台

作为数据中心运营管理的重要工具,管控平台将不同区域的多个机房数据汇聚在一起,可以由用户制定统一的测点标准,并且自定义各种告警策略,不再受限于不同厂家协议标准、以及软件逻辑的差异限制,是现今大规模数据中心管控的发展趋势,也是未来提升数据中心运维人员工作效率、实现运维质量把控分析的基础。基础设施监控只是管控平台的一个基本功能模块,通过监测北向接口采集到的数据,按照系统内配置的异常判断逻辑自动触发告警,并由集中监控中心将告警按事件单的形式派单给所在机房运维人员进行跟进处理。另外,管控平台因汇聚了大量的运营数据,因此用户还能随时随地对各种实时、历史数据进行查看和分析,这就弥补了本地动环系统的部分局限性。

图9,某远程管控平台电池管理功能

图10,某远程管控平台电池历史放电数据查询功能

值得注意的是,虽然蓄电池状态实时监控的方式多样,但是大多数告警逻辑都只是依靠简单的阈值、或平均值对比进行判断,并不具备复杂的分析功能。而在上一章节中已提到,蓄电池在均充、浮充、放电时均有不同的异常判断标准,这也就意味着监控系统必须能够分辨出蓄电池当前所处的状态。

因此在配置告警策略时,需要综合多个不同设备的实时甚至历史数据,将多个测点相互调用组成判据条件才能实现。同时运维人员也不能只局限于关注某一种监控方式,而应该认识到不同监控方式的优势与不足,以便通过综合应用实现功能互补,否则在某些情况下就会因告警漏判,错失及时采取补救措施的时机。

举个典型的案例:某机房UPS配套使用的蓄电池,在未发生放电的情况下一直处于浮充状态。某一天由于电池内部老化使得该组电池充电电流缓慢上升,并触发了“浮充转均充”判据,UPS自动切至均充,而此时监控系统采集到的单体电压、平均值差异均在允许范围之内,因此一直未产生告警。在蓄电池容量饱和的情况下,持续的充电能量转化成了热量,电池组开始出现发热、甚至外壳鼓胀,直到最终触发高温告警才被运维人员发现。假如针对此类长期处于浮充状态的蓄电池,监控系统能够根据电池充电电流、电压等实时数据设计如下的异常判断逻辑,那么类似的故障案例也将大幅减少。随着运维经验的丰富与成熟,这些复杂策略也将通过不断的完善和优化,为后续的新建机房运营者带来直接的借鉴价值。

图11,复杂场景下的电池异常判断逻辑

总结

蓄电池的运维管理虽然不是一件简单的事,但也不是一门玄学,作为数据中心管理人员,只要能够深入了解蓄电池的基本特性以及维护要领,同时随着运营阶段的发展合理制定维护策略,便能够在安全使用的基础上,尽可能延长蓄电池使用寿命,实现安全性和经济性的两者平衡。另外,从业界的研究方向来看,专家经验、大数据分析、AI机器智能学习这三者的结合也一定是今后运营管理平台的发展方向。

图12,基于神经网络模型的电池故障预测

腾讯数据中心已联合高校专业研究团队,在庞大的运营数据基础上,通过训练神经网络模型等方式,开展了对故障电池预测、基于放电数据的电池容量预测、以及老化电池剩余使用寿命预测等课题的研究,并在某些课题上取得了较高的准确率。相信在持续的验证及优化工作下,未来电池健康管理功能将不断地完善,为运营管理者提供更加高效的服务。

【说明】本文仅供学习和交流,文中部分图片来自网络,如涉版权,敬请联系删除,谢谢。

0 人点赞