术语
RAG (Retrieval-Augmented Generation): 检索增强生成(RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性
数据分析的未来
对正确问题的近似答案比对近似问题的精确答案更有价值
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem - John Tukey
在AI流水线中的数据存储类型和量级
- 每个AI流水线中都涉及到数据存储
- 数据源-数据提取过程中涉及到: PB级别的顺序写
- 数据准备过程中: TB级别的顺序读
- 模型训练过程中: GB级别的随机读
- 检查点和恢复过程中: GB级别的顺序写
- 推理和RAG过程中: TB级别的随机读
- 归档过程中: PB级别的随机写
典型 AI 集群的存储剖析(按存储性能分层存储)
- 左边绿色GPU服务器集群通常只能提供8个U.2的插槽
- 中间采用高性能全闪存,通过是TLC, 弥补机械盘性能, 总容量比HDD少
- 右边采用对象存储, 存储集群或JBODS, 包含大量机械盘, 总容量占比高
AI集群中的数据移动
- 1.数据采集阶段,原始数据按顺序写入对象存储层
- 2.数据准备阶段
- GPU集群从对象存储读取数据(按序)并写入计算集群
- CPU对原始数据预处理, 读取数据,然后写入干净的数据
- 3.训练过程: GPU 通过以随机顺序读取数据来训练模型, 训练后的模型将写入磁盘
- 3a.检查点过程: 模型训练数据会定期写入磁盘,并根据需要读回
- 4.推理(Inference): 该模型已部署并开始接收输入,在 GPU 服务器中生成随机读取活动。RAG 还可以创建额外的 I/O 活动
- 5.归档流程: 模型输入和输出被捕获并写入对象存储层的磁盘
旨在优化 AI 存储效率的产品组合
QLC 提升新型 AI DC(数据中心) 构建的电源效率
- 每个 DGX 机架 16PB,可计算出 100MW 总可用功率
- 数据来源 – Solidigm,2024 年 8 月。功耗分析假设采用前沿功率和空间优化的绿地(新)底端超大规模/Tier 2 AI DC 实现。有关建模详细信息,请参阅附录“QLC 功率效率与 HDD”
模型训练与数据存储
AI 数据穿越存储层之旅
- 最近的检查点基本在SSD上
- 早期的检查点数据在HDDS
AI数据量级和性能
检查点:提高存储容量和吞吐量
检查点频率:模型和客户独有。更频繁的检查点可带来更多存储空间 • 最新检查点数据:SSD 层中提供最新副本,以实现低延迟访问 • 较旧的检查点数据:在 HDD Blob 存储层上,可用但在需要时访问速度较慢 • GPU 扩展:从 Blob 存储层一次性访问可实现高吞吐量
AI负载中的存储扩展性
总结
- AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求
- AI行业也会带动存储行业发展, 中期预计, 尤其是高性能存储将会持续受益
参考
检索增强生成(RAG): https://aws.amazon.com/cn/what-is/retrieval-augmented-generation/
Nvidia 使用 H100 进行大规模构建:Eos 作为大型数据中心构建的 DGX SuperPOD 参考模型(层级性能和容量估算:NVIDIA): https://www.youtube.com/watch?v=jQ-ZCvg4ZFU&t=635s
晓兵(ssbandjl)
博客: https://cloud.tencent.com/developer/user/5060293/articles | https://logread.cn | https://blog.csdn.net/ssbandjl | https://www.zhihu.com/people/ssbandjl/posts
https://chattoyou.cn(吐槽/留言)
DPU专栏
https://cloud.tencent.com/developer/column/101987
技术会友: 欢迎对DPU/智能网卡/卸载/网络,存储加速/安全隔离等技术感兴趣的朋友加入DPU技术交流群