FB outage:门禁联网的下场就是断网锁在门外

2022-07-06 15:34:19 浏览数 (1)

这次真的是差一点炸掉整个互联网。

昨天一早fb宕机之后,各种吐槽meme 满天飞

昨天晚上Google就出了内部文档分析了这次fb宕机事件。到了5号早上,fb和cloudflare分别发了博客解释此次outage(只是给出了关于本次事故的部分细节,并没有说啥有用的…)。

估摸着fb应该是早上8:40安排了一个maintaince。根据FB向Google发出的BGP宣告(Google承载的流量放在ISP里面也是靠前的),8:43 fb同时撤销了4个域名服务器上8条ipv4 8条ipv6的路由宣告,添加了两条新的ipv4路由。这下乐子大了,facebook从整个互联网上消失了,场面跟曾经的几场网络战一样,然而他们谁都没有fb体量大。

接下来的问题就新鲜了,fb称之为cascading effect 级联效应,其实我倒觉得像是微服务架构会出现的雪崩效应。比如你想刷一下fb,然后发现上不去了,于是你又刷新了一下,还是上不去,于是你反复retry~但是你的浏览器其实也在纳闷,突然没信号那我是不是该retry一下?然后它也反复发消息。上游的CDN也纳闷了,于是它也在retry。于是你手上刷新了一下,上游的retry在指数级放大。

还没完,你开始怀疑是不是我这app出问题了,删了重下吧~这下 Google Play和App Store血压也上来了。然后大家开始涌向twitter,Twitter和GCP跟着血压升高。各级的DNS压力剧增,小的DNS马上就撑不住了,涌出的流量又一起涌向大的DNS。最后全靠Google 的8.8.8.8和cloudflare 1.1.1.1撑住了,这俩但凡再崩一个,下面这些红的地方全都好不了。

根据 Google的事后分析,

  1. 这事儿有可能发生在谷歌么?其实17年有个类似的事件,不过当时给工程师拦住了。事后建立了新的操作规范,所以Google炸的可能性不大。
  2. 万一Google真的炸了呢?倒也不必慌张,Google 的各级网络直接其实还是有隔离性的,如果只是这种级别的翻车工程师从家里就能解决,并不像fb一样需要物理进入数据中心。甚至对于更极端的情况也存在对应的操作手册,可以在整个骨干网失效的情况下恢复production network。

另外Google还辟了个谣:因为fb的员工大部分在家办公,所以临时找了几个人去现场,但是去的人给锁在门外了。网上传言他们用了angle grinder才打开门

其实并没有,这是纽约时报的记者自己编的。想想也是,数据中心总该防备着物理灾害吧,总不能断网门禁扫不开门就全靠电锯。fb员工是拿钥匙开的门~

0 人点赞