谷歌、Meta、英伟达……巨头扎堆的AIGC,国内发展如何了?

2022-12-10 10:39:02 浏览数 (1)

时下,AI领域最火的技术非AIGC莫属。去年三月,OpenAI发布了人工智能绘画产品DALL·E,后来升级到DALL·E 2。谷歌和Meta紧随其后,并且进一步发展出文字转视频功能。今年8月,Stable Diffusion正式开源。而在日前,英伟达也宣布加入AIGC的赛道,发布了Magic3D。

AIGC究竟如何从前些年的默默无闻,到这两年的火爆网络?是什么变量促成了这一技术的爆发,又是哪些潜在趋势在助推这股潮流?我们国内目前在这一技术领域的发展现状又如何?

AIGC火爆的背后:Diffusion Model的出现

AI生成其实一直都有,在2021年之前主要通过NLG生成文字,而要完成图片等视觉艺术品,则要基于生成对抗网络GAN,通过生成器和判别器不断对抗来训练模型。

通过GAN的算法训练,可以生成不错的图形,但也有很多问题难以解决,比如图形结果雷同,多样性缺乏;生成器有上升瓶颈,从而造成模式坍缩;以及训练难度高和成本大。

所以,尽管图形生已有不短的历史,包括像BigGAN,StyleGAN等的技术突破,但始终未能让产品真正商业化,只能停留在新奇好玩的阶段,直到Diffusion Model(扩散模型) 出现。

通过马尔科夫链,将文字描述文本经过处理后当做噪声不断添加到原图当中,从而让神经网络从无到有的生成了图片,这是扩散模型的作用原理。通过该模型,算法训练变得更加简洁,只需要添加大量图片,生成的结果相较GAN更具多样性。

但自2015年诞生的前五年,扩散模型并没有引起业界关注。直到2020年,一篇名为Denoising Diffusion Probabilistic Models 的论文终将这一模型用在了图像的生成上。

反应极快的OpenAI,在隔年1月即公布将出品Dall-E。并宣称Diffusion Model击败了GAN(论文:Diffusion Models Beat GANs on Image Synthesis),从而似乎为AI生成的工程落地指明了方向。

更多推动力:大模型、多模态、开源模式

同样是OpenAI,两年前推出1750亿参数的预训练语言大模型GPT-3,至此开始,千亿规模的大模型训练成为流行趋势。但在国内,一方面因为接口开放的限制,AI生成相关应用难以使用;另一方面,大模型训练成本高企,让不少企业望而却步。这些导致了AI生成在国内无论是应用,还是形成产业都未能起势。但在近来,还是有不少国内企业开始关注大模型训练,走在前面的公司已经展开训练。

同样非常火的多模态,对于发展AIGC来说,重要性体现在打破不同模态的数据,包括文本、图像、视频、音频等数据之间的分界线,从而在模型的构建上趋向统一。多模态已经通过 DALL-E、Stable Diffusion的应用日趋成熟。

而除了技术本身,开源模式也进一步推动了AIGC的发展,AIGC火爆也有像Stable Diffusion正式开源(模型权重和代码)的功劳,这意味着所有人都可以通过开源代码做出文本生成图像的产品,因而Stable Diffusion也在GitHub上长期霸榜。

彼岸到此岸:国内AIGC的产业先锋们

然而,对于中文世界的创作者来说,无论是在 DALL-E 2 还是在Stable Diffusion上操作,不仅需要对英文Prompts的准确表达极尽思考,在英文语境下想要生成真正地道中国风的画作也是难上加难。

实际上,国内已经有一些AIGC的行业先锋推出了中文版的AI生成产品。

紧随Stable Diffusion,心辰科技(盗梦师团队)在不到一个月时间,于今年8月底上线 AI 作画产品“盗梦师”。仅用1秒出图,日留存率接近50%,上线不到两个月生成的图像数量已经达到1千万张,且已经开启商业化。

盗梦师生成的画作

本月初,第一个中文版本的 Stable Diffusion 模型“太乙 Stable Diffusion”正式开源。2022 年 7 月,IDEA CCNL开源了第一个中文CLIP模型,目前已经有 4 个版本。太乙 Stable Diffusion上线二十天,下载量即超过10万,成为全球排名第三的Stable Diffusion模型。

太乙 Stable Diffusion生成的画作“飞流直下三千尺 ,唯美,插画”

本月中,智源研究院大模型研究团队开源最新双语AltDiffusion模型,并在近日升级至 AltDiffusion-m9版本,全面支持中、英、西、法、日、韩、阿、俄、意等九种不同语言的文图生成任务。该模型已跻身 GitHub Python 开源项目每日热榜,paperwithcode 网站热度前5。

AltDiffusion生成的画作

那么,这些惟妙惟肖的画作究竟是如何生成的?扩散模型能够为AI生成带来哪些变革?多模态、大模型又给AI生成带来哪些助推力?AIGC在国内发展现状如何?又该如何实现商业化?

0 人点赞