AIGC 场景下存储与数据管理的挑战与应对

2023-12-02 13:56:44 浏览数 (1)

10月28日,"寻宝 AI 时代——OSC 源创会苏州站暨 Techo TVP 技术沙龙"在苏州圆满落幕。腾讯云存储专家解决方案架构师屠伟新带来《AIGC 场景下存储与数据管理的挑战与应对》主题分享。下面我们一起来学习回顾一下AIGC场景下的存储解决方案。

AIGC 场景下存储与数据管理的挑战与应对

在分享伊始,屠伟新首先提出了团队持续关注的问题,从2022年年底 ChatGPT 发布出来以后,AIGC 对数据的要求持续高涨,一方面模型训练需要非常多的数据量,另外一方面AIGC又会生成非常多的新内容。AIGC 产生内容的速度比真人拍照、视频产生内容的速度快非常多倍,是一个爆炸式的增长。在这样的背景下如何应对这么大规模数据的存储,如何保障数据在流转过程中的高效、高性能和高可靠呢?

屠伟新向大家介绍了 AIGC 典型的业务流程,开始先从网页或者数据供应商侧进行数据采集,获得需要训练的数据,通过大数据的能力对数据做一些清洗、预处理的工作,然后进行模型训练。在训练的过程中要求非常高的计算能力,存储能力和数据获取的能力。经过迭代,模型输出之后,把模型配送到服务端,再去供给最终的用户提供一个大模型的服务。今年4月份国家网信办发布了《生成式人工智能服务管理方法(征求意见稿)》,对AIGC生成物的合规性做了一系列规定。因此,对于 AI 产生的数据,也会有进一步加工和数据合规的要求。

从这些流程中可以发现,在数据采集阶段,数据量是巨大的。ChatGPT在文本的领域只需要几十TB,但如果往图片、视频等模态发展,数据量将呈指数级增长。一些企业在AI领域的原始采集数据量已经接近10PB的规模。面对巨大的数据量,首先需要一个大容量、可靠的存储,同时这些数据的流动也需要快捷高效,屠伟新也推荐大家选择腾讯云的对象存储COS作为数据存储的底座,腾讯云COS单集群可以达EB级的规模。在数据采集后,需要对这些数据进行预处理,清洗,打标签,或者是做一些任务类的处理。这时候主要是利用大数据集群的分布式计算能力。在大数据的生态里,我们的存储提供HDFS 的接口。腾讯云对象存储作为底层的基座,可以提供原生HDFS兼容的接口,利用Hadoop生态做一些批量的数据预处理工作。在模型训练的过程中,对于存储的要求是带宽高、时延低。在推理的过程中,则需要满足数据合规、数据智理两大核心需求。

接下来屠伟新介绍了腾讯云在 AIGC 整个业务流程中提供的存储解决方案,最底层是对象存储COS,单集群能力可达到上万的节点,带宽高达Tbps级别,容量达EB级。同时腾讯云还提供了标准、归档、深度归档等存储类型,配合数据生命周期管理,更大程度上优化成本。在这个基础之上,腾讯云存储还提供数据挖掘、数据生态上的一些解决方案,比如利用腾讯的AI和算法的优势,输出一些图片处理之类的AI技术能力。腾讯云存储面向AIGC场景,也提供了数据加速方案——GooseFS,GooseFS会利用分布节点上的资源,做就近计算端的高速缓存,从而达到2-10倍的性能提升。另外,在AIGC的训练场景里有很多的访问都是基于文件的接口,需要提供高带宽高性能数据存储服务的同时需要完全兼容POSIX语义。我们的GooseFSx产品就是在该场景下提供的兼容POSIX的高性能高并发的数据存储服务。其最大的一个优势是可以与后端的COS存储自由的数据流动,可以方便的预加载所需要的数据训练集以及把训练结果的沉降到统一的数据湖存储COS中,使得COS在AIGC整个业务流程中始终保持集中统一的数据存储底座,避免数据孤岛。

对于AIGC产生的数据,腾讯云也对应提供了一站式数据智理的方案。腾讯云“数据万象”整合了腾讯前沿实验室技术能力,包括AI实验室、优图实验室、多媒体实验室和天御实验室,结合腾讯行业领先业务的最佳实践,为客户提供图片处理、音视频转码、内容审核、AI识别等多种数据处理的能力。值得一提的是腾讯云存储支持对AI产生的数据进行追溯,比如在生成的图片上打上对应水印,可以提供明水印,也可以提供不影响用户感官的盲水印,后期通过技术提取出水印进行追溯。同时数据万象也提供了便捷智能的图片压缩服务,用户不用调相应的参数,系统会自动分析图片的质量和冗余度,在保证一定图片质量的基础上,降低图片的大小,为客户节省带宽成本。

0 人点赞