b站,牛b不起来了!

2021-07-29 11:12:21 浏览数 (1)

程序员要对机器有敬畏之心。

在操作线上机器之前,要先准备一个金色的盆子,静静的闭上你的眼睛,然后用你的右手轻抚你的左手,再用你的左手轻抚你的右手,直到再也没有一点污垢。点上一炷香,默念十句“我可以的”,就可以开始敲打命令行了。

机器的批量操作,需要纯洁的双手和赤诚的心灵去打开;常年供一个关公,确保线上不出问题。

当你有了赤诚的内心,把机器当作一个吃苦耐劳的灵魂,那么它就会以实际行动,以7x24小时不间断的工作热情,回报于你。

7月13日,B站疑似崩了,无法刷新出内容,至少半小时以上。

14日凌晨,B站发消息称,昨晚,B站的部分服务器机房发生故障,造成无法访问。技术团队随机进行了问题排查和修复,现在服务已经陆续恢复正常。耽误大家看视频了,对不起!

OK,机房的锅,真希望你说的是真的。但所有官方发布的东西,很少有说实话的!

且看当时负载均衡器出卖的信息:

  • 404,意思是你变成youtube了
  • server:代表的是哪台机器变成youtube了,机器名词使用sh表示上海
  • 负载均衡,竟然用的是tengine,这有点超出预料了

机器挂了,比起看不了视频,兴高采烈吃瓜的群众更多一些。根据大家的截图,有人统计了server字段所展示的内容。

代码语言:javascript复制
ks-gz-webcdn-02(金山云-广州)
ks-gz-webcdn-07(金山云-广州)
ks-gz-webcdn-08(金山云-广州)
ks-sccd-dx-w-05(金山云-成都)
jd-gdfs-cmcc-w-02(京东云-佛山)
jd-hncs-cmcc-w-03(京东云-长沙)
hw-gz3-webcdn-04(华为云-广州)
hw-gz3-webcdn-06(华为云-广州)
hw-gz3-webcdn-07(华为云-广州)
hw-gz3-webcdn-09(华为云-广州)
hw-gz3-webcdn-10(华为云-广州)
hw-gz3-webcdn-11(华为云-广州)
zl-jp-w-01
zl-us-w-01

多个云厂商的不同机房,全部出现了故障?

哈哈,机房不背这个锅,停电也不可能。要是机房发生故障,几乎全国的基础设施都不能用了,这证明了官方的通告,就是糊弄你们的。家丑不可外扬,除了从面试者嘴里,你可能永远无法知晓具体的故障引起原因了。

我曾知道有一家公司,执行了多个云厂商批量关闭服务器的接口,于是网站全挂了,对外宣称的也是机房的问题,都是这个套路。

自从有了公关部门,自从说假话有了利益,技术就只能成为不能见人的存在。你看看,什么牛鬼蛇神的都出来了。B站崩了,和你挖矿的有个鸟关系。

外行的,永远不知道一个上规模的互联网公司,运维和架构层面,能够达到何种复杂性。几万几十万的机器是有的,多云环境也会有的,运维托管费用保守估计每年数亿美元。在这种规模下面,一旦某个环节出现问题,都会是致命的。

在这种公司里,运维和DBA行业是个高危行业,压力大还要背锅。更要命的是,很多企业实行故障驱动,直到问题出现才会重视起来,到最后都被墨菲定律给教育了。在大流量和随机的布尔运动下,逻辑几乎无孔不入,把每个可能出问题的地方都走了个遍。技术团队,只能靠修修补补完成系统升级,避免同样的事情发生第二次。

像视频、直播行业,压力最大的就是CDN,通过推流把同一份数据分发到世界各地。CDN会根据DNS精确调度,这样用户在访问的时候,就能够从离自己最近的节点拉取数据进行观看。如果你在现场打开手机播放,会发现是有很大的延迟的,会有时间差,这就是因为分发延迟的缘故。

做异地容灾,做多机房,做绝对的不停服,并不是一个社交视频网站的必要功能。看不了视频,用户并没有损失什么,这些数据并不是那么的重要

现如今k8s当道,istio盛行,多zone服务器大糅合,目标就是要干掉大部分从业者,全部交给机器。机器不会喊累,顶多烧点电费,听起来就比人靠谱。但当人出现问题的时候,要多一点宽容,从问题中吸取教训。毕竟在很多人眼里,程序员和机器是没有差别的。

0 人点赞