在BGP路由问题导致全球性故障持续六个多小时后,Facebook、Instagram和WhatsApp开始重新上线。
今天美国东部标准时间上午11点50分前后,这三大网站都突然无法访问,浏览器在尝试打开它们时显示DNS错误。
Facebook CTO Mike Schroepfer在Twitter平台上向全球用户表示歉意,但他们没有解释具体发生了什么故障。Schroepfer之前就宣布自己明年年初离职,没想到最后三个月却遭遇这样的尴尬局面。
用户试图直接连接到下列Facebook DNS服务器时,也无法访问它们。
无法连接到Facebook的DNS服务器
由于DNS协议将网站的IP地址告诉用户的操作系统和浏览器网站,而DNS服务器无法访问,因此无法连接到它们。
BGP路由问题导致故障
虽然起初这个问题似乎与DNS有关,但后来查明问题比这个要严重得多。
正如亚马逊AWS的首席技术客户经理(TAM)Giorgio Bonfiglio所解释的那样,各种Facebook路由前缀突然从互联网的BGP路由表中消失,实际上使得用户无法连接到托管在其IP地址上的任何服务。
BGP即边界网关协议是现代互联网依赖以运作的基石,决定着全球这一头的计算机如何连接到另一头的设备。
为了便于理解,BGP路由协议就好比互联网“邮政系统”,便于将数据包从一个(自治)网络系统传输到到另一个网络系统。
一个网络想要在互联网上被广大系统或用户看到,它们就需要向全世界公告它们的路由或前缀。
如果删除了这些前缀,互联网上的其他任何人不知道如何连接到它们的服务器。
由于Facebook将其组织配置成使用域名注册商和托管在自己路由前缀上的DNS服务器,一旦这些前缀被删除,没有人可以连接到这些IP地址以及运行在它们上面的服务。
从美国东部标准时间下午5点开始,Facebook路由前缀开始出现在其他网络的BGP路由表上。由于这些前缀如今在互联网上被公告,用户可以再次连接到Facebook、Instagram和WhatsApp。
目前还不清楚是什么导致了今天的故障,但很可能归咎于配置错误,就像过去出现的其他许多与BGP有关的故障。
由于Facebook的电子邮件服务器也因该故障而无法访问,BleepingComputer之前发过去的电子邮件被退回。
这是这家科技巨头自2008年以来最严重的故障,当年一个故障导致Facebook瘫痪了近一天,不过那时候其服务只有8000万用户。
周一,Facebook股价以下跌5%收盘。
相关阅读 ·
- 又一起 BGP 重大泄漏:搞垮了全球各地的数千个网络
- 谷歌云访问控制列表坏了,BGP与欧洲云断开,致使该区域60%的虚拟机瘫痪84分钟、一部分CloudVPN用户停运8小时
- 因 BGP 配置错误,美国网络大瘫痪:全球 web 流量下降 3.5%
- 又一起 BGP 劫持事件,影响全球 200 多家云服务和 CDN 提供商
- 全球 F、E 根服务器瘫痪、BGP路由出故障:全是 Cloudflare 发布的软件中的 bug 惹的祸!
- BGP超级失误:Verizon 搞垮 Cloudflare 和 AWS 等巨头,导致“连锁灾难性故障”
- ISP 配置 BGP 错误导致谷歌云瘫痪,中国电信背了黑锅。。。
- 美国的大片地区又断网了:因技术人员配置失误,BGP路由泄露所致