数据中心散热难?看谷歌和 DeepMind 如何用 AI 搞定它

2019-11-29 10:58:03 浏览数 (1)

By 超神经

场景描述:谷歌和 DeepMind 合作,使用机器学习的方法,优化数据中心的能耗问题,成功的实现了数据中心自动化散热管理。

关键词:机器学习 数据中心 散热控制

随着互联网技术的发展,人们对计算能力需求的增加,大型的数据中心也越来越多。但这也对环境和能源带来了一丝威胁。

在大规模的商业和工业系统中,数据中心消耗的能源占了很大的比例。从环境角度来说, 2017 的数据显示,数据中心使用量占据了全球能源总消耗量的 3% ,排放量占全球温室气体总量的 2% 。

另一份报告中指出,数据中心每年使用的电量估计为 200 太瓦时( TWh ),这大概相当于伊朗国家能源总消耗量。

谷歌的一个数据中心

如果能够对数据中心的能源使用作出优化,就算是一些细微的改进,也能很大程度上减少温室气体的排放量,有效地缓解能源和环境问题。

而谷歌,一直在用 AI 技术做这样的事情。

不散热就烧钱

数据中心大部分的额外能耗来自于降温冷却。而如何进行有效的散热管理一直是企业头疼的问题。

就像笔记本运行时需要散热一样,谷歌的数据中心为谷歌搜索, Gmail ,YouTube 等热门应用提供服务器,必须及时的将巨大的发热量处理掉,以保证它们正常的运行。

数据中心的散热系统

然而,常规使用的降温方法,在数据中心这样的动态环境中却很难发挥功效,主要的阻力来自于以下几个方面:

  • 工程师如何操作设备,以及把握环境对设备产生的复杂影响。传统的方式和人类直觉,在数据中心的复杂环境中,往往无法捕捉到这些细节
  • 系统无法快速适应内部或外部的变化(如天气)。这是因为工程师不可能对所有的环境制定规则。
  • 每个数据中心都有独特的架构和环境。一个系统的自定义调整模型可能不适用于另一个系统。因此,更需要一个通用的智能框架。

百行代码节省上亿美元

为了解决以上问题,谷歌和 DeepMind 一起尝试用机器学习( ML )的方法,来提高谷歌数据中心的能源使用效率。

2016 年,谷歌和 DeepMind 推出了一个基于 ML 的推荐系统,利用数据中心内的不同操作场景和参数,来训练神经网络系统,创建了一个高效和自适应的框架。

而他们训练的数据,则是数据中心内数千个传感器收集的历史记录,包括温度,功率,泵速,设定点等数据。

由于其目标是提高数据中心的能源效率,因此以平均 PUE(电力使用效率)为参数,对神经网络进行训练。 然后通过对 PUE 的趋势进行预测,对制冷设备的配置优化进行指导,减少了闲置的制冷电力消耗。

PUE( Power Usage Effectiveness )被定义为总建筑能耗与 IT 能耗的比率,PUE 为 1.0 是完美的分数。 传统数据中心的 PUE 通常约为2.0,对于超大规模计算中心,PUE 已经削减到大约 1.2 。谷歌通过优化后平均 PUE 达到了 1.12。

Google 数据中心 PUE 测量范围

另外,他们还训练了两个深度神经网络,以预测未来一小时数据中心的温度和压力。这些预测的目的是模拟 PUE 模型中的推荐操作,以确保不会超出任何操作约束。

其中的一次测试,预测何时开启和关闭控制模型

通过 ML 方法的使用,系统能持续将用于冷却的能量减少 40% ,排除掉电气损耗和其他非冷却效率低下的原因后,总体 PUE 开销减少了 15% 。相当于节省了上亿美元的资金开支。 这也带来了最低的 PUE (随着不断地优化,还在持续降低)。

Google 的所有大规模数据中心的 PUE 数据

AI 即将取代人力

在 2018 年,他们将这个系统提升到了新的水平。

在新技术里,AI 得到了更大的自主权,系统可以直接控制数据中心的降温,但为了安全,还是处在专业人员的监管之下。

这种技术是基于云服务的方法,及时提供分析和策略方案。

每隔五分钟,基于云的 AI 就会从数千个传感器中,提取数据中心冷却系统的快照,并输入深度神经网络,预测潜在操作的不同组合将如何影响未来的能源消耗。

接着,AI 系统在满足安全约束的情况下,识别出会带来最小的能量消耗的操作组合,并将它们发送回数据中心,最后的操作由本地控制系统验证然后实施。

<< 滑动查看具体步骤 >>

这个想法源于使用 AI 推荐系统的数据中心运营商的反馈。运营商表示,虽然系统已经学会了一些最佳方案,例如在操作员的帮助和监督下,系统能够正确的将冷却负荷分散到更多的设备上,以实现更高的效率。但他们在好奇,AI 是不是可以做的更多?

然后,AI 就完全接管了这一切,几乎不再需要操作员的协助。

新的系统中,他们重新设计了 AI agent 和底层的基础设施,同时也重点考虑了安全性和可靠性,使用多种机制来确保系统始终按预期运行。

其他安全控制模式

而且,最高的控制权属于操作员,而不是 AI 。工作人员可以随时选择退出 AI 控制模式,通过限制系统的优化边界,将 AI 的使用控制在安全可靠的范围之内。

谷歌的负责人员说到,「我们希望以更少的人力开销实现节能。自动化系统能够以更高的频率实施更细致的操作,同时避免错误。」

AI 说:没有最强,只有更强

在试用新系统的几个月中,他们已经实现了平均 30% 的持续节能。而且随着时间的推移,积累了更多数据,系统的性能也在逐步提升,如下图。

该图描绘了 AI 系统随着时间的变化情况,蓝色代表数据量,绿色是性能的变化

在图中记录的六个月里, AI 控制系统的性能,从 12% 的改进(自动控制的初始启动)增加到大约 30% 的改进(上图绿色曲线表示和过去相比的结果,曲线越低,性能提升的幅度越大)。

随着技术的成熟,系统的优化范围也将得到扩展,从而进一步减少能耗。

而谷歌的技术人员表示,数据中心仅仅是个开始。从长远来看,这项技术有潜力应用于其他工业领域,在更广泛的场景中改善环境和能源问题。

超神经小百科

归纳偏好 Inductive bias

归纳偏好是在进行归纳过程中进行选择的考量。对应了学习算法「什么样的模型更好」的假设。

归纳偏好可以看作学习算法自身在一个庞大的假设空间中,对假设进行选择的启发式或者 「价值观」。

在具体的现实问题中,判断算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

0 人点赞