云计算对阵高性能计算:谁更具竞争力?

2018-03-22 17:24:25 浏览数 (1)

最近一段时间以来,高性能计算集群方案到底应该自主构建还是直接购买的争论可谓如火如荼,其部分原因在于原本属于市场空白的性能与软件生态系统关键性组成部分如今已经逐渐落实到位。

经过数年的发展演变,如今高性能计算在云环境下的可行性终于得到了一定程度的肯定——至少针对一部分应用程序是如此。在大型云服务供应商已经利用更为强大的网络与处理器方案向高性能计算作出了试探性延伸的同时,以Rescale公司为代表的其它厂商也开始通过自己的许可模式帮助独立软件开发商接触高性能计算代码,进而揭开长久以来蒙住高性能计算软件的这层神秘面纱。不过需要强调的是,目前将高性能计算负载运行在云环境当中仍然存在着诸多难题,到底该将哪些负载交给内部高性能计算集群打理,同时把另一些可能存在突发性资源需求增长的负载交由云基础设施负责,从而充分利用双方的固有优势仍然很难找到确切答案。

根据The Platform网站最近发布的一篇文章,我们可以看到在高性能计算领域,整体设施的构建、采购以及机房共置等任务确实难于完成。为了能够更透彻地理解这两种观点的思维方式,我们采用了Rescale方面提供的一些数字——这是一家高性能计算云服务供应商(如前所述,主要负责将软件与高性能计算独立软件开发商相对接方面的工作)。

下面提到的各项数字来自Rescale公司对于内部高性能计算集群与租赁云供应商容量及许可所进行的一次成本比较。这些数字体现了一台典型的中端集群在处理高性能计算工作负载时所带来的使用成本——注意,这里并没有考虑任何高端处理器或者加速方案。在一篇探讨高性能计算云服务使用成本的文章中,Rescale公司CEO Joris Poort解释称,这主要是为了体现最终用户的中位成本水平——一部分需要高到极致的性能表现,另一些则更关注成本因素,因此这些数字仅作为基准参考。当然,一旦新型Haswell处理器或者InfiniBand等其它高成本要素被加入进来,基础成本无疑将显著提高——特别是在采购集群设备的头一年时间当中。

在以上配置条件下,用户在物理数据中心内运维一台典型的100节点集群,则每月需要承担近7万美元固定成本,其中约1万6千美元被用在了能源消耗及冷却方面开支当中。Poort提供的统计数字当中还包含一位负责管理该集群的全职工程师的薪酬。他同时强调称,对于大多数用户、甚至是已经开始向云端过渡的用户而言,这一职位都仍然切实存在,因为企业内部往往继续运行着大量工作负载。

接下来我们可以看到Poort所提供的典型集群的具体成本构成:

这仅仅是集群运维方面的支出,Poort表示实际情况还应当考虑到集群的整体拥有成本,包括技术支持团队以及其它服务项目所带来的超出表格范畴之外的支出,其每月整体成本约为11万美元。有趣的是,硬件相关成本仅为4万美元左右,但其它运维(包括供电、人员以及其它相关费用)却高达7万美元之巨。

这个数字听起来确实不低,尤其是考虑到企业往往会把为高性能计算资源准备的预算按部门加以进一步划分。举例来说,在某些企业当中,带宽方面的成本预算被纳入到整体带宽使用量监控机制当中。电力消耗也是如此,这部分支出往往并不会被直接划拨给高性能计算集群,因为数据中心内部还包含有其它设备所带来的能源成本。虽然这些资金都会由企业负责提供,但Poort表示直接列出数字的方式更加容易理解——此处的统计结果属于将各项开销直接累加得到的总和,其中可能也包括一部分被算在高性能计算部门头上的、实际由其它部门使用的支出项目。

考虑到这一点,将整体成本准确拆分为每小时运营开支确实有些难度,特别是考虑到多数情况下我们往往只能基于不同硬件单独进行计算。换言之,计算结果中往往缺失了前面所列举的整体运营与数据中心日常成本。在这里我们姑且将满载运转情况下的每计算核心使用成本按照每小时10美分计算,当然不同企业由于情况有别、计算结果则可能出现明显差异。“如果大家只加入电力消耗费用而没有包含整体数据中心成本,那么每计算核心每小时的使用成本可能只需要5美分。这从表面上看似乎没什么差别,但这样的成本水平已经比我们的计算方式高出25%——再加上其它设施支出与元素所带来的负担,最终差异将极为明显,”Poort解释道。这种节约效果可能称不上立竿见影,但却绝对是两种方案之间的重要差别,而且随着时间的推移、这种差别将愈发显著。

美中不足的是,每计算核心每小时10美分的使用成本只适用于满负载运转这一假定前提之下,具体如下表所示。“在评估此类成本时经常出现的另一大误区在于,当人们审视自己在云环境下使用服务器的开销时,往往会单纯从表面理解、认为其成本比亲自购买服务器并接入基础设施更高。有鉴于此,我们需要强调一点,也就是资源利用率方面的差别——在云环境下,我们可以随时开启并关闭自己租赁的设备。而在非使用时段中,它们完全不会带来任何成本,”Poort指出。

换句话来说,作为一套典型的内部系统方案,大部分高性能计算工程技术团队更倾向于采取最高容量规格以应对资源需求峰值,毕竟能够将全部资源投入产品开发往往比保持100%资源利用率更加重要。“很多企业已经意识到,他们目前的实际资源利用率恐怕只有60%到70%。但这种容量设置对自身而言确实非常明智,因为他们需要满足峰值容量提出的资源需求——工程师们可一刻都等不得。”

这就回到了Poort之前提到的观点,即对于高性能计算客户而言,最理想的用例应该能够将内部资源与基于云的容量加以结合,从而在轻松应对峰值需求的同时利用现有硬件投资平衡实际运营成本。他并不指望企业客户会将全部关键性高性能计算工作负载都投入到云环境下。不过在他看来,利用云服务所提供的各类硬件与软件工具来扩展企业现有容量绝对是个理想的选择。

最后需要强调的是,除了可观的全球资源储备之外、Rescale公司还在软件许可方面拥有丰富的搭配组合,足以帮助独立软件开发商摆脱那些昂贵而复杂的高性能计算工程软件。对于用户来说,以小时为单位支付软件许可费用显然极为重要、甚至可算是一种独特优势。尽管这一点在上述表格当中并没能得到明确体现——特别高性能计算系统与具体工作负载的实际差异让我们很难为其制定一种准确的衡量基准,但相信用户对其重要价值绝对有所理解。

0 人点赞