和大家汇报一个好消息:
在第七届未来网络大会上,腾讯云星脉网络获得「2023中国未来网络领先创新科技成果奖」。
未来网络领先创新科技成果奖
由中国通信学会面向全社会公开征集和评选产生,内容涉及5G/6G网络、算力网络、网络安全、人工智能、空天一体化网络等领域。由于参选内容极具前瞻性和前沿性,该奖项已经成为未来网络发展的重要风向标。
为什么要推出星脉网络
今年以来,以大模型为代表的AIGC技术,在全球范围内引发新一轮智能化浪潮,被视为是重塑人类未来的新技术。
AIGC的爆发除了带来算力上的挑战之外,还对网络的传输和稳定提出了新的需求,传统的网络架构已经越来越满足不了大模型训练的需求。
星脉网络正是在这样的背景下诞生的。作为大模型专属高性能网络,它能够为大模型训练提供大带宽、高利用率以及零丢包的高性能网络服务。
性能上,其通信带宽和支持集群组网规模都达到了业界最强:分别为3.2T和10万卡。
根据测算,和传统以太网相比,星脉网络能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。
技术上,做了哪些创新
概括来说,星脉网络分别在交换机、通信协议、通信库以及运营系统等方面,进行了软硬一体的升级和创新。
采用自研算力网络交换机,并针对AI大模型并行训练流量特征,创新性地设计了具有流量亲和性、突破标准数据中心网络集群规模的多轨道架构,支持业界最大的3.2T GPU服务器接入带宽,单训练任务支持10万卡集群组网。
自研的TiTa网络协议,采用先进的拥塞控制和管理技术,能够实时监测并调整网络拥塞,满足大量服务器节点之间的通信需求,确保数据交换流畅、延时低,使集群通信效率达90%以上,超过传统以太网在AI场景下60%的水平。
高性能集合通信库TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低40%。
端到端全栈网络运营系统,通过端网立体化监控与智能定位系统,将端网问题自动定界分析,让整体故障的排查时间由天级降低至分钟级。同时,大模型训练系统的整体部署时间从19天缩减至4.5天,保证基础配置100%准确。
星脉网络的推出,将进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。
——腾讯云副总裁王亚晨
—END—
/ 鹅厂网事/
分享鹅厂网络的那些事