故障频发的公有云，还能不能用？

本月亚马逊AWS、阿里云、微软Azure接连出现大面积故障，造成用户无法访问在线服务、不能正常使用数据等问题，严重影响了用户的业务，让不少正在使用或准备尝试公有云的企业，信心再次发生动摇。

公有云的故障，能避免吗？

2月28日，亚马逊公有云服务AWS出现了较高的错误率，影响了数千个在线服务，包括项目管理工具和费用报告工具等。

3月14日，阿里云华东1地域可用区E部分负载均衡出现访问失败。

3月16日，微软云服务Azure出现全球性故障，在全部的28个数据中心中，有26个受到影响，导致用户无法创建、更新和删除数据资源。

大型厂商公有云在一个月内集中爆发故障，让大家再次把目光集中在公有云的安全性和可用性上。

其实，类似这种大型的公有云宕机事件，每一年都在发生。早在2013年8月，AWS先后发生两次宕机；2016年6月，AWS停机长达36个小时。2015年6月，阿里云香港的机房服务暂停了12个小时。2016年4月，微软Azure在中国北部的机房出现了故障，停机近4个小时。

从上述问题可以发现，虽然云服务商都强调自家云服务的高可用性和稳定性，但实际上云服务并不能给予用户100%有效的保障。

这其中既有电力、网络、设备、数据中心、软件、云计算架构故障等客观因素，也有运维人员误操作的原因。同时，还有不确定的外部因素会导致数据中心发生故障，从而致使云计算服务不可用。

那么，公有云出现大规模宕机事件，是否就说明公有云并不值得信赖呢？

有资深专业人士在接受采访时表示，出故障属于正常的现象，“首先，没有一个系统是100%可靠的，故障是不可避免的；其次，云计算其实不会承诺是100%能用的，但基本上会比自己建要会更稳定；再次，即使是使用云计算也要注意做好‘万一他出故障了，或者说他一定会出故障’的心态去看待。举个例子，比如说，我们平时照片都在手机上，就要做好手机会丢的准备，因此照片也要存放在家里的硬盘里。”

因此，不能够简单“一刀切”来判断公有云的可用性。企业必须根据自身的情况，以及信息的机密性、所使用的服务商情况，来做具体的考量。

面对不完美的公有云，企业该怎么用？

对于一个系统来说，漏洞永远存在。对于公有云的优劣势，企业需要更加理性地去看待。

作为革命性的IT 技术，云计算服务具有弹性可扩展、资源利用率高、利于数据分析、成本降低等优点。但公有云服务一旦出现故障，对于没有任何备份或者做预案的用户来说，可能就会造成惨痛的损失。

因此，企业需要根据自身的情况来评估如何使用公有云。

首先，企业要区分公有云的使用场景。如果仅仅是对企业内部使用，不存在移动办公等网络使用场景，企业和公有云的供应商之间建立起一条VPN或其他专有的数据连接，保证整个数据链路的保密性。

其次，评估不同的灾备方案，所有的灾备方案每年至少一次进行演练，保证整个灾备方案是可行的。

在考虑灾备方案时，既可以在同一个公有云平台的不同区里面互为备份，也可以使用不同的公有云平台的不同区互为备份，当然也可以考虑混合云，将某个公有云平台和自身企业内部的数据中心互为备份。

最后，需要对整个公有云平台上的数据都进行加密，至少对关键的、涉及到隐私的数据来进行加密，对重要的数据进行匿名化管理。

研究机构Gartner表示，中国公共云市场整体规模将从2016年的112亿美元增长至今年的142亿美元。

在中国市场，公共云的整体市场规模正在迅速增。我们相信宕机事件并不会大幅影响市场信心，反而是一次次绝佳的市场教育机会，催化公有云市场走向成熟。

一方面，云服务商在对事故的处理过程中，将不断提升系统性能和自身运维管理能力，倒逼整个云计算产业提升性能；另一方面，随着企业对云服务的理解越来越深，必将寻求最优的云服务解决方案，将风险压到可控范围内，而不是单纯的依赖某家公有云厂商。

可能再过几年，这种一边是受损用户骂声不断，一边是吃瓜群众围观看热闹的情形，都将会趋于平淡。到那时，公有云才真正润物细无声地成为了“水电煤”一样的存在。

The End

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

云计算 DevOps解决方案企业运维

0 人点赞