英国近期持续的热浪导致谷歌云和Oracle云的数据中心的冷却系统出现故障,从而引发了这两家公司的云服务中断。
在过去这一周,英国遭遇了温度屡创记录的热浪,导致整个英国地区的气温高得令人窒息。
然而,今天随着温度达到创纪录的40.2摄氏度(104.4华氏度),谷歌和Oracle用来托管各自云基础设施的数据中心的冷却系统接连开始出现故障。
为了防止对硬件部件造成永久性损坏、因此造成长时间故障,谷歌和Oracle都关闭了设备,引发各自的云服务中断。
Oracle是最先受到影响的公司,该公司在美国东部时间今天上午11点30分左右报告了冷却故障,导致“非关键硬件”的电源被关闭。
Oracle云状态消息显示:“由于该地区一反往常的高温,英国南部(伦敦)数据中心内的一部分冷却基础设施遇到了问题。这导致我们需要关闭一部分服务基础设施的电源,以防止不受控制的硬件故障。”
“之所以采取这一步骤,目的是为了减小对我们的客户造成任何长期影响的可能性。”
然而,即使仅关闭非关键硬件的电源,Oracle也表示该区域的客户可能无法访问其 Oracle云基础设施资源。
大约两个小时后,谷歌也报告了为服务区europe-west2托管europe-west2-a区域的其中一栋建筑物的冷却系统出现了故障。
这些问题正在影响与存储和计算相关的各种服务,包括BigQuery、SQL和Kubernetes。谷歌承认了停运事件。举例说,这次中断导致英国WP Engine托管的WordPress网站瘫痪,这些网站由谷歌云提供支持。
谷歌云事件报道写道:“我们的其中一栋为服务区europe-west2-a托管europe-west2-a区域的建筑物发生了与冷却系统相关的故障。这导致该区域的容量出现局部故障,导致虚拟机终止,因而丢失机器,我们的一小批客户受到了影响。”
“我们正在努力使冷却系统恢复正常,并在该区域创建容量。我们预计europe-west2-a区域不会受到进一步的影响,目前运行的虚拟机应该不会受到影响。一小部分复制的持久性磁盘(Persistent Disk)设备在单一冗余模式下运行。”
“为了防止机器损坏和更长的停机时间,我们已经关闭了该区域部分设施的电源,并限制了GCE抢占式启动。我们正在努力为任何剩余的受影响的复制持久性磁盘设备恢复冗余。”
与Oracle一样,这种冷却故障正在困扰谷歌云客户,虚拟机纷纷被终止,机器无法访问,持久性磁盘设备在单一冗余模式下运行。
这两家公司都声称,在竭力使冷却系统重新上线的同时,它们预计不会产生任何进一步的影响。
极端气温还在英格兰部分地区引发火灾,影响高速公路交通、铁路服务和电力,卢顿机场也因跑道融化而暂时关闭。