注:本文转载自公众号腾讯云。
你或许也有过这样的想法...
出门来不及的时候,要是有十双手一起收拾就好了
这么多人,为什么没有100条队
今天这工作量,需要1000个我一起才做得完
其实,你的电脑每一秒都在面对这样的难题。
为了把你眼前的图像显示出来,它需要给几百万个像素点,算出每秒几十帧的像素值。
一秒钟就是几亿次并行计算。
这还只是把画面显示出来。如果是渲染一段3D动画,计算量就更大了。
能同时完成这么多计算却依然不卡,靠的就是GPU(图形处理器)。
相对于CPU,它拥有大量的算术逻辑单元,能同时处理许多简单、规则的计算任务。
这些特征,让GPU天生适合处理简单重复的计算逻辑。
比如,AI训练/推理、图形图像处理、视频编解码等。
这些全真互联的场景,也让GPU成了计算界的当红炸子鸡。
然而,爆炸增长的计算需求,让GPU的成本居高不下。
企业花大价钱搭起来的GPU物理服务器,也很难应对业务量大幅波动:
平时难以跑满,忙时又没法快速扩展。
峰谷差异
总不能屯一堆服务器,白天肝到爆、夜里空着吧!
太懂这种感觉了。
从游戏、视频渲染到推荐算法,鹅也是GPU消耗大户。
为了把算力的价格打下来、利用率提上去,鹅想了很多办法。
首先,把算力资源放在云上。
这让GPU变成了能弹性伸缩的资源池。所有业务共用,需要多少取多少。
业务高峰?现在点点鼠标就能扩容。
池化算力
如果用不完一整块GPU,通过云上的vGPU能力,你也可以只买半块、或者1/4块。
vGPU能力
鹅还想把它切得更细。
这需要实现对GPU资源的强隔离。
一向是业界难题。过往的方案,总有各种各样的不完美。
把脉内核架构多年,鹅终于研发出了qGPU技术。
它完整地控制并拦截了用户态和内核态间的通信。
这就好比把同一栋大楼内外的门卫都换成自己人,在确保隔离的前提下,实现了对GPU资源的精准切分。
qGPU
这也是业界唯一的GPU在离线混部能力。
在确保显存、算力、故障强隔离的前提下,它能以5%的粒度精细切分算力。
让你可以同时在GPU上运行优先级不同的多个任务,并确保互不干扰。
在离线混部
在机器学习场景下,它能优先处理你需要马上出结果的任务,比如在线推理;
同时,利用剩余算力,运行对时效要求不敏感的任务,比如离线训练,确保资源不闲置。
分优先级运行
另外,利用腾讯云自研的跨平台加速引擎TACO,你不用再管复杂的底层硬件差异了,只需要聚焦算法本身。
统一的软硬件接口
面向成本敏感的业务,云上GPU还提供“竞价实例”的购买方式,客户掌握定价权。
从此,你可以按照自己能接受的价格使用算力。
竞价实例
这些能力背后,是腾讯云异构计算平台的支撑。
经过腾讯自研业务和腾讯云海量场景的锤炼,它广泛服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景。
现在,它能提供16 EFLOPS的算力调度——相当于每秒1600亿亿次浮点运算。
通过对自研软硬件的探索,它还在持续推动遨驰的海量算力提升,并结合低延时、高画质、端到端完整解决方案的腾讯云云渲染PaaS,加速全真互联的到来。
怎么样,这就来云上“渲”点啥?