技术集锦 | 云原生 AI 技术原理及最佳实践系列

云原生已成为了云计算行业下一代的标准。目前，除了传统应用与基础架构的云原生化，AI 与大数据也开始拥抱云原生的架构。

腾讯云容器服务基于在云原生领域的技术沉淀，推出模块化，低耦合、高扩展性的云原生 AI 服务，旨在利用云原生的思想和技术，为 AI 场景的数据处理、模型训练、模型上线推理等需求构建弹性可扩展的系统架构的技术，在支持更广泛、多样的用户需求的同时，提高开发、运维和设备的效率。

【腾讯云原生】收集了关于云原生 AI 系列干货文8篇，帮助你更好了解“云原生 AI”，一定要收藏哦！

云原生的弹性 AI 训练系列之一：基于 AllReduce 的弹性分布式训练实践

本文主要介绍了数据并行的分布式训练任务的弹性能力在 Kubernetes 上的设计与实现。并且通过实验的方式验证了特定的场景下，在保证训练精度的同时，这一特性能够使成本降低 70%。

云原生的弹性 AI 训练系列之二：PyTorch 1.9.0 弹性分布式训练的设计与实现

云原生的弹性 AI 训练系列之三：借助弹性伸缩的 Jupyter Notebook，大幅提高 GPU 利用率

公有云上构建云原生 AI 平台的探索与实践

Fluid GooseFS 助力云原生数据编排与加速快速落地

本文介绍了 Fluid 技术的背景以及与 GooseFS 的关系，通过在 TKE 集群上的实际操练让大家体验 Fluid v0.6.0 的两大特性，让大家进一步了解云原生应用场景下的数据编排能力。

云原生 AI 前沿：Kubeflow Training Operator 统一云上 AI 训练

Aggregated APIServer 构建云原生应用最佳实践

本文从实战角度出发介绍我们开发 SKAI 平台过程中选择 Aggregated API 的原因，以及 kube-apisever 的扩展原理，演示如何构建起自己的 Aggregated API，并将它部署到 EKS 集群中。

GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发！

本文介绍了 TKE 提供的云原生 AI 能力和腾讯云自研网络协议栈 HARP，并指导用户如何在 TKE 上部署实践 TACO-Training 分布式训练方案。

宠粉福利

转发本文到朋友圈并集赞88个，将截图发到【腾讯云原生】公众号后台，随机抽取3名送腾讯周边一份！活动截止至3月27日中午12点。

重磅来袭

【云原生正发声】第十六期今晚19:30将和你一起听腾讯专家聊 Cloud FinOps 云上的资源管理和成本优化。

Linux 基金会亚太地区开源布道师团队与【云原生正发声】节目联手，推出【Cloud FinOps —— 云上的资源管理和成本优化】线上直播，与大家分享云计算时代如何有效的分摊、管理、优化成本。

快快扫码进入直播预约吧！

往期精选推荐

点个“在看”每天学习最新技术

0 人点赞