金磊 发自 凹非寺 量子位 | 公众号 QbitAI
想给自己搞个数字人,还得是3A级的那种?
现在,这个可以有。
而且只要一部手机,几分钟就能搞定!
瞧,只需要先在手机上挑选一个人物模型:
然后对人物模型的细节做调整,例如眉毛的样式、鼻子的大小高度等等:
就这样简单的点点、划划,一张数十万面建模的高精度虚拟形象就创建出来了!
当然,若是花上更多时间,从面部的其它细节,到身材的比例,再到发型着装等等,都可以一一调成你想要的样子。
但若是光创建出来却不能用,那这个数字分身也仅仅是个摆设罢了。
别急,那就打开手机的前置摄像头,把你的表情和动作show出来,分分钟就可以让这个3A级数字人跟着你同步动起来。
(女装大佬的福音啊)
这便是来自中国团队的最新研发成果。
但有一说一,以前要是想搞个3A级数字人,那可真的是费时费力。
不仅打造的周期比较长,对设备的要求也是较为苛刻(主要价格还挺不菲
)。
所以现在,打造3A级数字人,为什么会变得如此easy?
咋就变得人人都可用了?
一部手机就能搞的3A级数字人,怎么来的?
我们先来浅聊一下这套人手3A级数字人的“表面功夫”——数字人形象。
在渲染和运行引擎方面,它主要基于的是Epic Games家的虚幻引擎(Unreal Engine,UE)。
目前许多做数字人的厂商,在底层引擎方面也都会选择UE。
但这套3A级数字人的不同之处在于,它所运行的环境得是每个人都在用的手机。
因此,为了不仅要适配这种情况,还得达到3A级别的画质,团队在UE材质模块的基础上,自研了逼真的材质效果shader。
例如对毛发的各项异性、皮肤的3S(CG级别材质)表面散射、眼睛瞳孔的深度变化、毛孔细节的强弱变化等等,都做相应的深度优化。
而且为了让捏脸在手机上变得“且快且方便”,团队还开发了特别灵活且高自由度的编辑工具。
就像我们刚才展示的那样,“傻瓜式”点点、划划,就能捏出来想要的效果了:
这套3A级数字人好上手之处,还在于它支持消费级单目RGB摄像头的AI驱动。
简单来说,就是用你手机的前置摄像头便可以搞定数字人的表情和动作驱动,而且还是实时的那种。
例如在人脸表情驱动方面,团队便通过人脸检测、3D人脸重构、AI等技术,精准地反馈人脸形状、纹理、反射和表情权值等参数。
让数字人在面部表情的驱动能够达到实时且逼真。
同样的,在动作驱动方面,也是可以对捕捉到的视频进行实时处理,并且得到连续稳定的骨骼参数。
哪怕是快速、复杂的动作,也是可以精准hold住。
……
但有一说一,若仅仅是这些形象上的“表面功夫”,要想让3A级的数字人在手机上实时渲染和驱动起来,那可还真是有点天方夜谭了。
毕竟这要是“换算”到本地来实现,对硬件设备要求的“打开方式”都得是这样的:
高端PC机性能,CPU(2.6GHZ主频、16线程),内存64G,RTX3080显卡,TB级存储……
而且团队还说了,不仅要渲染一个3A级数字人,要在元宇宙里渲染数十万甚至更多的数字人。
欲达此境,就不得不涉及团队的核心“杀手锏”功夫了。
一套“乾坤大挪移”,了解一下
话不多说,我们直接来揭晓答案:
云原生。
在他们看来,这是能够让所有普通用户拥有3A级数字分身的唯一“解法”。
因为绝大多数用户使用的消费级手机和PC,性能根本没法满足3A级数字人实时渲染和交互。
毕竟手机里可塞不了一张3080显卡,就算能塞下,万元起步的价格也确实让人肉疼
。
于是乎,团队便把所有的这些麻烦事,一套“乾坤大挪移”统统搬到云上去解决:
唯有如此,才能把3A级数字人变成消费级这件事彻底打穿。
但这并不仅仅是“挪过去”那么简单。
因为数字人、元宇宙需要的云端环境,并不是传统公有云就能直接上手解决的。
例如传统公有云还是以CPU为主的计算模式和计算逻辑为核心,但面向未来的数字人和元宇宙,还需要视觉层面和图形层面上发力。
若是归拢一下来看,二者的区别便一目了然了。:
- 传统公有云:CPU 存储 网络
- 数字人/元宇宙的云:CPU GPU( DPU) AI 存储 网络
那么具体的“解题步骤”,又该是怎样的呢?
首先,面对复杂场景的不断迭代,云原生技术体系也在时刻演进中,例如从集中式中心场景到分布式的边缘场景拓展。
边缘计算基础设施,便成为了“解题步骤”之一。
为此,团队自建了云游戏领域最大的边缘计算网络:
- 在覆盖全国的三十多个边缘IDC中,放置了数万台自研服务器。
- 并将自建的三十余个边缘IDC率先升级至100G。
如此一来,哪怕是面对千万级的实例,也能够轻松驾驭;并且边缘节点100G的升级,也可以应对高速增长的传输和存储压力。
除此之外,还需要应对大带宽超低延迟传输的实时流媒体传输技术,在传输系统层面来“解题”。
例如基于GAN的AI自适应FEC算法,可以优化FEC缓冲和编码实现机制,在延时和丢包场景下寻找最佳平衡点。
在整体带宽增加不超过5%的情况下,该算法可以让流畅度提升80%。
再如UDP TCP双通道传输策略,在复杂弱网场景下,结合UDP低延时和TCP高可靠的特性,可以将连通率提升到99.9%。
以及智能动态分辨率算法,可以在带宽有限、网络不稳定的情况下,让画质提升1.2倍以上。
但随着基础设施等条件的优化,再上面的平台层也成了老大难的问题。
因为在如此庞大系统的实施过程中,资源如何调度,计算和存储又该如何分离等问题也会接踵而至。
为此,团队自研了分布式百万容器的管理平台来应对。
而细分数字人和元宇宙场景,团队做出的“解法”是行业内首个UEdocker的大规模分布式实施。
如此一来,在全国实时渲染边缘计算节点,以及百万级的分布式UEDocker实例的加持之下,用户就可以就近接入,而且是超低时延和超高精度的那种。
……
这便是“乾坤大挪移”打法的奥义所在。
而也唯有通过这种云原生的方式,才能够支撑在边缘端的元宇宙里,同时渲染并实时交互数十万乃至数百万3A级数字人的这种需求。
背后的中国团队
至此,也是时候揭晓这家中国团队的庐山真面目了。
它便是于2016年成立的实时互动内容云计算服务商——海马云。
在短短成立7年时间里,海马云已经在业内取得的成绩可谓是斐然。
就在今年3月,根据IDC和信通院联合发布的《全球云游戏产业深度观察及趋势研判研究报告(2022年)》显示:
海马云已覆盖行业90%以上头部客户,每月为超过3500万活跃用户提供云游戏计算服务。
并且在云游戏算力及解决方案中的市场份额,也已经达到了53%,稳居国内第一。
而在这份报告中的描述中,“自研”成为了海马云非常醒目的标签。
例如在2016年成立开始,海马云便自研了高密度ARM阵列服务器,后期又深度定制了基于高端显卡的X86服务器。
这使得海马云能够在大幅提高多路并行GPU渲染性的同时,实现画质上的提升。
加之刚才提到的率先将边缘IDC提升至100G,以及平台层上超大规模容器调度管理系统、实数互动流媒体传输等能力,使得海马云成为业内唯一能提供高性能云端算力的基础上又保持高性价比服务的厂商。
那么接下来的一个问题便是——为何要入局元宇宙、数字人赛道?
首先站在当下互联网的发展节点来看,毋庸置疑的一点便是元宇宙是发展的一个大趋势。
正如全球巨头Facebook直接改名为Meta,微软、谷歌以及国内科技大厂纷纷入局并发力于此。
并且元宇宙已经在开始改变着直播、游戏、开会等方式,甚至对营销、广告、艺术以及科技在产生着潜移默化的影响。
而海马云CEO党劲峰对这种虚拟世界和现实世界结合的过程,有着一个坚定的信念:
如果可以用元宇宙来描述未来的互联网,要想让全球几十亿人都进入元宇宙虚实融合的世界,那么所有实时互动的内容,都应该在云上。
而这,正是海马云多年来所深耕且熟知的领域。
至于为何选择细分的数字人赛道,党劲峰表示:
我们一直在打造面向实时互动内容的云计算核心的基础设施平台和软件能力平台,希望通过我们底层的能力和优势,可以为消费者提供在普通终端上就能享受3A级别的高质量体验。
不难看出,海马云所要做的依旧是产业离不开的一个话题——降本增效。
从目前结果来看,海马元已经实现了让3A级数字人“普惠”的目标,那么接下来的一步,有该如何前行?
海马云表示:
我们希望进一步把服务能力从数字人应用拓展到整个互动场景生态。 无论是娱乐社交、电商直播、文化旅行,还是广告营销、企业办公,都希望能够是电影级的高品质场景。
最后,正所谓好不好用还得用了再说。
海马云目前已经开放了Beta预览版PC端的体验入口(手机端也在路上啦~),快戳下方链接或点击文末“阅读原文”,在电脑上去试试吧:
https://www.haimacloud.com/ProductDigiHuman/
— 完 —
「人工智能」、「智能汽车」微信社群邀你加入!
欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。
ps.加好友请务必备注您的姓名-公司-职位哦~
点这里