算力时代将至——我们是否已经做好准备

2020-10-16 11:10:12 浏览数 (1)

| 导语   在未来5到10年,算力会成为大家所熟知的一种“新能源”。算力将和我们日常生活中的水、电、燃气、汽油一样,成为不可或缺的一种民用资源,而提供和维持这些的系统和设施就是我们常说的基础设施。文章来源于安全平台部天幕团队。 

算费”(我们暂且这样称呼),可能是计算1Gb数据或是10Gb数据所需要支付的费用,有点类似现在大家在用的流量,在未来5到10年,算力会成为大家所熟知的一种“新能源”。算力将和我们日常生活中的水、电、燃气、汽油一样,成为不可或缺的一种民用资源,而提供和维持这些的系统和设施就是我们常说的基础设施

可能有人觉得这是天方夜谭,算力这个概念对于一些大型企业和公司确实必不可少,但是对于小微企业和个人来说还是很遥远的,普通百姓要这些算力做什么?为什么必然会出现“算费”这种基础设施,还有这个基础设施具体是什么意思?

我国“新基建”发展规划

我们所说的算力现在通常泛指云计算,通过云来提供强大的算力与算法。而云平台,如阿里云、腾讯云、金山云、天翼云等等,这些应该属于新一代信息基础设施范畴(尽管还没有明确的基础设施判定标准,但是目前来看国家是将云平台算作新型基础设施的)。

基础设施建设其实不止是我国,以美国为代表的西方国家也在迅速建设和发展基础设施,而且起步要早于我国。我们为什么要如此大力去发展新基建,主要原因是由于我国传统基础设施建设较为超前,从近几年的经济增长情况来看,已经接近0的水平(如图1)。因此,建设新型基础设施,服务数字经济变得势在必行。

图1 我国基础设施投资与增长情况(来源:中国信通院)

用通俗点的说法来讲,基础设施就是能够改变、创造环境以满足人们需求的设施,比如国家电网(电力)、供水厂、污水处理厂(水)、燃气管道(天然气)、三大运营商(电话)等,这些都是基础设施。那么“新基建”是什么,新在哪里?

新基建是基于科技进步产生的基础设施新形态。所谓新型基础设施不一定就是要重新建设,也包括旧基础设施升级成为新型基础设施(如产业互联网)。新基建的三种形成方式包括:

  • 旧基础设施通过自身技术演进升级形成新的基础设施,如5G、千兆光纤等;
  • 旧基础设施应用ICT技术进行智能化改造而形成新的基础设施;
  • 新技术形成新的基础设施,如AI基础设施、区块链基础设施等。

这里借用两张图来说明一下:

图2 什么是“新基建”(来源:中国“新基建”发展研究报告,赛迪)

图3 传统基建与新基建(来源:中国“新基建”发展研究报告,赛迪)

未来我国发展新型基础设施建设将包括两个方面,一是传统物理设施数字化、智能化升级,成为智能基础设施;二是数字化领域的新型基础设施(如图4)。

图4 我国新基建发展形态(来源:中国信通院)

算力如何成为一种基础设施

如今“新基建”扩展了基础设施的范围,国家所提倡的新型基础设施主要包括七大领域,除其中的人工智能技术成熟度还有待发展外,其他六个领域均已具备不同程度的公共属性,其中的大数据中心即涵盖云计算平台,我们就以云平台为例,因为未来算力主要将基于云上SaaS和PaaS。

图5 新基建市场预测(来源:中国信通院)

每当有新的技术出现,一个必然的过程是:技术产品化、产品服务化、服务基础设施化。这个过程可能通常需要至少10年甚至更长的时间。过去10年里,云计算致力于将算力基础设施化。

纵观云计算发展,1998年VMware推出虚拟化技术,2000年开始出现SaaS,2005年亚马逊宣布AWS平台上线,2008年Salesforce推出第一个平台即服务应用DevForce,2008年Gartner报告公布云计算代表未来计算方向并列入十大数据中心突破性技术之一,2013年开始出现Docker,再到后来的CI/CD、SASE、云原生和分布式云等概念纷纷出现。这个过程已经超过20年,目前已经进入云计算服务化的成熟阶段,最终将步入基础设施化。

图6 全球未来公有云市场占比预测(来源:Gartner)

预测未来10年,公有云市场将缩小,而私有云和混合云需求开始凸显,市场逐渐变热,并且开始向智能云转化,比如现在开始出现的SASE平台、AutoML平台、大众化技术(Democratization)等。无论是我国还是全球,平民化工程师将是一个趋势,比如平民数据专家、平民开发工程师、平民AI专家等。开源、定制化、个性化、大众化,这将是未来用户关注的重点。这也是为什么以后算力会成为大众所必须的基础设施资源之一的一个原因。

现在,IaaS已经成熟,市场在向上行进(IaaS->PaaS->SaaS->XaaS),目前PaaS市场也在逐渐向成熟靠拢,未来SaaS将会成为主战场。

未来,云计算市场将开始逐渐融合,云边(边缘计算)协同。算力运营商开始出现(大概在2030年左右),主要包括算力服务提供商、服务零售商、基础资源供应商、本地算力提供商、算力算法优化服务商等形式。这与早些年的云服务商是一样的,当初是为用户提供云服务(SaaS、PaaS、IaaS),当客户熟悉和习惯了云上环境后,开始要求更细化的服务,这包括目前各厂商所做云上整体解决方案、行业解决方案、云上集成、云平台运维、云上规划咨询等服务,而未来这些服务将转向算力、算法、优化服务等方面。

算力运营商一开始可能主要为一些企业和大客户提供算力相关服务(就好比现在),而后慢慢开始向小微企业及个人提供服务,价格也越来越低,因为国家要将其基础设施化,那么普惠化是必然。就如同大家所用的流量和宽带一样,每年国家都会要求运营商降低价格,直到让大多数人都可以用上,真正的普惠于民。

图7 云计算概念已成为过去,算力成为基础设施的一员

每当一项技术到了基础设施化的程度,这就代表技术已经成熟,进入了中后期,不可能再随意改变,以免对社会造成影响。

到了那时,大家所讨论的可能会是:绿色节能算力、算费缴纳、电网和算网融合、年轻人不再谈论老土的云概念,算力才是他们关心的。正如开篇的那张图一样——“上个月的算费交了么?”

可能面对的问题

材料接近瓶颈

看到这里,感觉好像一切都蛮不错的,但实际上有些问题我们还要去讨论和面对。首先就是摩尔定律的减速,算力资源已经接近临界点(最近突破2nm),之后要讨论如何有效合理利用算力,不能再向之前那样有大幅度的进步。

还记得当初买了Titan RTX的那批有钱人么,还有入了RTX 2080 Ti笑着说可以再战5年的人,最近被RTX 3080各种吊打。

图8 RTX30系发布后显卡市场现状

在芯片方面,技术不断突破,从65nm、45nm、22nm到14nm、7nm再到5nm、2nm。目前硅材料所能承载的密度已经接近临近点,无法再提高,在未来,可能这种大步提升性能的情况会越来越少,甚至止步不前。因此未来如何找到更好的替代材料(如碳基晶体管、DNA等)以及如何更高效的利用现有资源成为我们必须关注和思考的问题。

大型机房散热

另一方面是机房环境。现在百万级服务器规模的超大型数据中心已经出现,这么大规模机房的散热和能耗如何管控,这也是我们无法回避的问题。

散热一直是难题,根据统计数据,目前各大机房大多数是依靠风冷方式,随着机房规模的扩大,很难维持机房的标准温度(夏季24°,冬季20°上下浮动2°),这就需要空调不停的制冷,不停的消耗电力,提供了算力,损失了电力,这种得失是否合适,目前还不好判断。这方面,国外公司走在了前面,比如Google,他们利用ML和ANN摸索出了一套解决方案,通过AI的智能控制,将数据中心的能耗降低近四成,PUE(电力利用效率)维持在1.11-1.12的水平。而且谷歌已经开始计算将这项成果作为服务,向外进行推广,当初我大概算了一笔账,以最最保守的数字来计算,如果我国按照目前国内IDC的规模来算(不考虑未来新建和扩建的数据中心),制冷能耗如果可以降低30%,每年将为国家节省3000亿电费开支(这是非常保守的估算)。

有些专家提倡使用液冷技术。传统的风冷技术已经不能完全满足其散热需求。这些都是促使液冷技术下沉的主要因素。

虽然风冷系统的创新从未止步,从传统的机房空调到直接风侧自然冷却的AHU和间接风侧自然冷却的AHU等方式层出不穷。但由于载热能力的差距,相比于风冷,液冷技术可以大幅度降低数据中心的能源消耗。比如很多沉浸式液冷数据中心的PUE甚至可以达到惊人的1.03-1.05。但是相同规模的风冷系统数据中心,其PUE值还在1.3-1.5之间。

图9 ZTE液冷机箱

得益于更高的散热效率,对建筑物的依赖度更低,以及静音安全的特点,那些对场地,电力要求较高的数据中心也会逐渐考虑采用液冷技术。除了传统的大规模数据中心以外,随着边缘计算时代的来临,未来的边缘计算数据中心也会有大概20%采用液冷技术。

虽然液冷技术优势很多,但目前也仍然存在着一些制约因素:

  • 缺乏相应的标准支持

目前沉浸式液冷还没有在行业内形成趋势,缺乏大规模应用的案例。国家或者行业对其技术的规范也还处于空缺状态。

  • 改建成本过高

采用液冷技术的数据中心在设计方式上和传统采用风冷的数据中心迥异。比如楼梯的承重,机房的层高等。如果贸然更换冷却方式,除了空间利用率会受到影响之外,人员维护以及再建设成本也都将是一笔不小的支出。

  • 具有腐蚀风险

矿物油和氟化物在与空气接触后会被其他物质所污染,从而对服务器等IT设备带来腐蚀的风险。为此带来的防范成本较高。

液冷技术虽然仍存在很多问题,但得益于其明显的优势,在未来的数据中心建设当中必然会有用武之地。相关专家表示,目前国内液冷技术已基本成熟,但是缺乏推动力和生态环境,也许在未来数据中心液冷解决方案会被更多的企业所接受。

网络安全算力

再者,便是我们一直关注的安全性。物联网、5G和大数据的发展与应用,让用户、设备、企业、行业、地域间的物理边界逐渐消失,数据总量呈指数级速度增长,数据跨界流转传输的速度也越来越快,算力所面临的挑战尤其突出。

随着IPv6网络部署的推进和云计算应用的普及,传统IPv4网络将逐渐退出历史舞台,这主要得益于新兴技术诸多优点(如IPv6地址池、云的强大算力),但同时也“造福”了攻击者,为其提供了更多攻击方式和资源。云上安全和终端(IoT、移动、边缘计算)安全越来越受到重视。

(1)云平台安全状况

我国境内的公有云、私有云和混合云的云服务器、云数据库、云存储、云主机、内容分发网络(CDN)以及互联网数据中心(IDC)使用的公网IP地址,境内云IP地址数3,680余万个,占我国境内全部IP地址数的10.7%。根据CNCERT/CC监测数据,2019年,我国境内云遭受DDoS攻击次数占我国境内目标遭受DDoS攻击次数的74.0%,88,505个IP地址累计遭受DDoS攻击228,486次;被植入后门数占我国境内被植入后门总数的86.3%;被篡改网页数占我国境内被篡改网页总数的87.9%;受木马或僵尸网络控制的IP地址占我国境内受木马或僵尸网络控制的IP地址总数的1.0%。虽然我国境内云感染木马或僵尸网络的概率较低,但因云上承载的业务和数据越来越多,在其他攻击上已成为受攻击的重灾区。

2019年上半年,黑客利用我国境内云IP地址控制发起DDoS攻击次数占我国境内IP地址控制发起DDoS攻击次数的86.0%;对外植入网站后门数占我国境内IP地址对外植入网站后门数的46.0%;承载放马网站数占我国境内承载放马网站数的30.7%;控制的肉鸡IP地址数占我国境内全部控制端IP地址控制的肉鸡IP地址数的89.3%。

因为云服务的便捷性、可靠性和低成本,越来越多黑客利用云主机作为跳板机或控制端进行网络攻击。与此同时监测数据还显示,云被用于发起DDoS攻击、植入网站后门等的攻击IP地址长期存活,且非常活跃。

面对如此规模的庞大网络,无论资产监控、流量分析、安全预警还是攻击防护,都需要强大的安全算力来予以支撑

(2)IPv6网络安全状况

随着网络基础设施IPv6升级改造工作的持续推进,IPv6网络相关用户数稳步增长,用户流量也在逐步攀升。截止2020年8月,城域网IPv6流入流量6092.26Gbps、流出流量3073.75Gbps。其中中国电信2174.8Gbps(入)/1495.5Gbps(出)、中国移动2677.34Gbps(入)/1024.96Gbps(出)、中国联通1217.28Gbps(入)/536.49Gbps(出)、教育网22.83Gbps(入)/16.79Gbps(出)。城域网IPv6流入流量占比:中国电信2.37%、中国移动2.71%、中国联通2.63%。

图10 城域网IPv6流量(来源:国家IPv6发展监测平台,2020.08)

IPv6 网络攻击数量急剧增加,影响范围也呈现出向各行业领域扩大趋势。据国内安全厂商统计,2019年上半年共监测发现超过9万起IPv6网络攻击,其中,攻击对象覆盖政府部门、事业单位、教育机构等单位。截止2019年3月,国内安全厂商拦截到攻击源为 IPv6 地址的网络攻击8000万起,其中目录遍历攻击、WEB Shell 攻击、SQL 注入等典型 WEB 攻击超过 90%。

根据CNCERT/CC抽样监测数据,针对IPv6网络的攻击情况也开始出现,2019年境外约3,000个IPv6地址的计算机恶意程序控制服务器控制了我国境内约4.0万台IPv6地址主机。

例如今年刚刚结束的HW行动,期间威胁检测平台显示,大规模攻击的IP是清一色的IPv6地址,IPv6成为攻击者的武器,应对这种攻击传统防护方式已然无法应对。基于态势判断和安全算力的新型防护体系才是企业所需要的安全能力,同时提前对IPv6威胁感知与防护做好准备。

图11 HW期间IPv6攻击流量

相较于一般业务,网络安全因其独有的攻防对抗属性,对算力有着更为严苛的要求。安全即是无穷无尽的“计算”。目前企业对于安全问题普遍重视程度不足,其次部分IPv6防护只有算法而不具备计算资源。要将算力作为一种基础设施,就必须具备处理海量数据并发、高实时性、复杂度计算等强韧能力。

(3)安全保障,算力先行

过去的20年里,技术发展很快,但安全技术一直是置后的,总是要慢一拍。不仅在安全部门,即使在基础设施方面,抵制变革已经延缓了许多创新和发展。时至今日,抗拒采用网络安全技术导致了技术发展缓慢,而且偏好传统策略的网络安全技术往往效率低下。

企业混合IT架构(包括本地和云)正在普及;与此同时,攻击方式越来越复杂,频率也越来越高。对高敏捷性且与广泛企业IT基础设施兼容的预防性安全技术比以往任何时候的需求都大。传统网络安全技术需要及时调整,进行自我改造,以满足这种变化的需求,以支持混合IT架构。

俗话说“三军未动粮草先行”,这里的粮草可以看做是安全算力。希望这次,我们可以将安全并行或者前置,而不是在是不可解的时候才想到安全。这就需要在算力基础设施化的过程中,将安全算力融合其中,比如PaaS安全、SaaS安全、数据安全和终端安全。安全算力平台可能会成为一种辅助功能整合在基础设施中,其能力将覆盖绝大多数网络,具有高带宽、低延时、网络稳定等特性。以此可以将算力普惠于民,同时为大众提供可靠有效的安全保障。

最后

云让我们相信云计算的力量可以改变我们,AI让我们相信算法超强的智慧,大数据让我们看到数据真正的价值。开源、定制化、个性化和大众化将推动并打造一个人人都能从中获益的算力时代。

如何做用户运营体系的推导思考

Automl框架katib浅析

如何让视频会议在小程序上开起来

0 人点赞