本月亚马逊AWS、阿里云、微软Azure接连出现大面积故障,造成用户无法访问在线服务、不能正常使用数据等问题,严重影响了用户的业务,让不少正在使用或准备尝试公有云的企业,信心再次发生动摇。
公有云的故障,能避免吗?
2月28日,亚马逊公有云服务AWS出现了较高的错误率,影响了数千个在线服务,包括项目管理工具和费用报告工具等。
3月14日,阿里云华东1地域可用区E部分负载均衡出现访问失败。
3月16日,微软云服务Azure出现全球性故障,在全部的28个数据中心中,有26个受到影响,导致用户无法创建、更新和删除数据资源。
大型厂商公有云在一个月内集中爆发故障,让大家再次把目光集中在公有云的安全性和可用性上。
其实,类似这种大型的公有云宕机事件,每一年都在发生。早在2013年8月,AWS先后发生两次宕机;2016年6月,AWS停机长达36个小时。2015年6月,阿里云香港的机房服务暂停了12个小时。2016年4月,微软Azure在中国北部的机房出现了故障,停机近4个小时。
从上述问题可以发现,虽然云服务商都强调自家云服务的高可用性和稳定性,但实际上云服务并不能给予用户100%有效的保障。
这其中既有电力、网络、设备、数据中心、软件、云计算架构故障等客观因素,也有运维人员误操作的原因。同时,还有不确定的外部因素会导致数据中心发生故障,从而致使云计算服务不可用。
那么,公有云出现大规模宕机事件,是否就说明公有云并不值得信赖呢?
有资深专业人士在接受采访时表示,出故障属于正常的现象,“首先,没有一个系统是100%可靠的,故障是不可避免的;其次,云计算其实不会承诺是100%能用的,但基本上会比自己建要会更稳定;再次,即使是使用云计算也要注意做好‘万一他出故障了,或者说他一定会出故障’的心态去看待。举个例子,比如说,我们平时照片都在手机上,就要做好手机会丢的准备,因此照片也要存放在家里的硬盘里。”
因此,不能够简单“一刀切”来判断公有云的可用性。企业必须根据自身的情况,以及信息的机密性、所使用的服务商情况,来做具体的考量。
面对不完美的公有云,企业该怎么用?
对于一个系统来说,漏洞永远存在。对于公有云的优劣势,企业需要更加理性地去看待。
作为革命性的IT 技术,云计算服务具有弹性可扩展、资源利用率高、利于数据分析、成本降低等优点。但公有云服务一旦出现故障,对于没有任何备份或者做预案的用户来说,可能就会造成惨痛的损失。
因此,企业需要根据自身的情况来评估如何使用公有云。
首先,企业要区分公有云的使用场景。如果仅仅是对企业内部使用,不存在移动办公等网络使用场景,企业和公有云的供应商之间建立起一条VPN或其他专有的数据连接,保证整个数据链路的保密性。
其次,评估不同的灾备方案,所有的灾备方案每年至少一次进行演练,保证整个灾备方案是可行的。
在考虑灾备方案时,既可以在同一个公有云平台的不同区里面互为备份,也可以使用不同的公有云平台的不同区互为备份,当然也可以考虑混合云,将某个公有云平台和自身企业内部的数据中心互为备份。
最后,需要对整个公有云平台上的数据都进行加密,至少对关键的、涉及到隐私的数据来进行加密,对重要的数据进行匿名化管理。
研究机构Gartner表示,中国公共云市场整体规模将从2016年的112亿美元增长至今年的142亿美元。
在中国市场,公共云的整体市场规模正在迅速增。我们相信宕机事件并不会大幅影响市场信心,反而是一次次绝佳的市场教育机会,催化公有云市场走向成熟。
一方面,云服务商在对事故的处理过程中,将不断提升系统性能和自身运维管理能力,倒逼整个云计算产业提升性能;另一方面,随着企业对云服务的理解越来越深,必将寻求最优的云服务解决方案,将风险压到可控范围内,而不是单纯的依赖某家公有云厂商。
可能再过几年,这种一边是受损用户骂声不断,一边是吃瓜群众围观看热闹的情形,都将会趋于平淡。到那时,公有云才真正润物细无声地成为了“水电煤”一样的存在。
The End
【科技云报道原创】
转载请注明“科技云报道”并附本文链接