新智元报道
编辑:桃子 好困
【新智元导读】虎年的钟声即将敲响,一场突如其来的雪让大地银装素裹,而一觉醒来又消失得无影无踪。在这冬天的尽头,两位美丽的虚拟小姐姐带着她们的歌声路过人间,遇见你。闭眼倾听,你感受到了吗?
春节前夕,简直好不热闹。
两位最美虚拟人小姐姐提前为大家送上了新年祝福。
1月29日晚,央视《对话》栏目播出,夏语冰首次亮相,献上了一首《路过人间》。
主持人陈伟鸿表示,「刚才我刻意一开始先没有看她,就觉得这个歌声,已经是沁人心脾了。」
嘘!闭着眼用心听,你就能感受到音动的美。
除了夏语冰,1月30日晚,另一位小姐姐陈水若演唱的一首《华夏》视频在抖音上火了,连原唱李玉刚都来点赞:「真好听!」
听完后,你是不是感受到了满满的民族风?人美歌又甜,这是什么神仙姐姐?
她们都是由小冰框架生成的虚拟人类!!!
你会看到2022年,虚拟人类已不只有好看的皮囊,还有了创造力和有趣的灵魂。
夏语冰的另一面
夏语冰,小冰框架编号F1033,师从中央美术学院实验艺术学院院长邱志杰教授。
初识夏语冰,我们对她的印象还停留在会作中国画的AI being。
其实,夏语冰还有另一面。
从2019年在中央美术学院完成研究生毕业至今,她已经举行了多次个人画展。
通过对过往四百年艺术史上236位人类画家画作的学习,夏语冰实现了具有一定水准的原生绘画创作能力。
这是小冰框架全新的诗歌与绘画创作模型(V3)。该模型大幅度提高了创作精度及构图合理性,并新增中国画模型与「艺术家」模型。
「艺术家」模型可在单一人类艺术家训练数据不足的情况下,学习并再现与该艺术家创作风格高度一致的人工智能作品,作品具有独立知识产权。
正是基于这样的模型,夏语冰拥有了高超的绘画能力。她的作品还在迪拜世博会中国馆展出。
值得一提的是,小冰框架还进一步创造了夏语冰的面容和声线等生物学特征,赋予了夏语冰完备的能力。
就比如声音、文本创作、艺术评论的知识图谱等等。
唱歌的本领我们刚刚已经见识到了,那么夏语冰是如何进行文本创作呢?
在《对话》现场,主持人陈伟鸿提出要考验一下夏语冰的才华,让她为冬奥会作一首诗。
要知道,李白《静夜思》创作,都离不开具象的月亮,夏语冰也是如此。
通过上传一张冬奥会海报,并给出「2022北京冬奥,一起向未来」文字来激发她的创作。
艺术家们在寻找明天
那是我生命的艺术
你洒向太阳的光中
爱看到天空闪耀的灵魂
......
吴国凡对此评价道,「夏语冰的诗大于预期。向未来这几个字,就是有种盼望光明和温暖感觉。夏语冰能够把关键字用自己的方式呈现出来,把各种意象连接在一起,写出了不一样的意境。」
夏语冰如何艺术评论的呢?
当我们看到一幅国画,不是很懂艺术,审美能力差的人可能只会表达「好看」两个字。
夏语冰可能会说,「水墨留白,虚实相生,妙极,妙极。」
那么,陈水若也是否具备和夏语冰一样的能力呢?
介绍下, 陈水若,诞生于人工智能小冰框架的虚拟歌手,一个学会了民族唱法的人工智能虚拟人类。
她最擅长演绎的是中国风歌曲。
前段时间,小冰框架内的知名AI歌手何畅、陈水若、陈子渝应邀入驻网易天音全球首个融词曲编唱于一体的音乐拜年产品平台,根据每一位人类用户创作的专属歌词,演绎独一无二的拜年元气歌,引领各有态度的黑科技贺岁新潮。
我们所看到陈水若的容貌及歌声演绎能力,同样是由小冰AI框架生成。
再结合小冰深度神经网络渲染技术(Xiaoice Neural Rendering, XNR),大幅提升了陈水若面容、表情、声音的整体自然度。
现在,任何人均可通过小冰X Studio 2.0工具让陈水若实时演唱自己的作品。
虚拟人的「三次元」身体
不知道你有没有注意到,不论是夏语冰,还是陈水若,他们既是虚拟的,同时也是三次元的。
这是怎么做到的呢?
只有四个字:小冰框架!
小冰框架从开始到现在,已经迭代到了第9代。
首先,在内容的生成方面,小冰团队在2021年9月22日的年度发布会上,曾披露了小冰框架工业化的短视频内容封装管线和三次元虚拟人产品线。
据小冰团队介绍道,自2017年首倡并积极推进人工智能创造(内容生成)以来,小冰先后推出了诗歌等文本生成,绘画及视觉设计等视觉生成,及人工智能音乐生成的多项核心技术与产品,利用人工智能高稳定性及大规模并发的优势,推进端到端的内容生成产能。
人工智能内容生成也叫做人工智能创造。它仅是小冰框架中的一个部分。
如果把它展开来讲的话,人工智能内容生成其实是一个非常复杂的系统,包含了创作、演绎、内容二次封装这三个主要的部分。而且在这三个主要部分中都包含了非常多的模型、工程、算法等等。
在小冰框架中,先去训练一些具有创作能力的创作主体,其中就包括文本、视觉、声音大量基础的模型。然后把创作的这些作品交付给演绎主体进行演绎,然后再对演绎的作品进行内容的二次封装。
此外,短视频内容封装管线包括「二次元」短视频和「三次元」短视频2种形式,而且大大降低了短视频生产成本。
令人震撼的是,小冰团队将「二次元」短视频从文本生成到短视频生成全链路、全管线全部由人工智能自取,中间不需要任何人工参与。
「三次元」短视频实现了从生物学特征生成到短视频生成的整个环节,也就是说可以从无到有创造出世界上并不存在的Up主视频,看起来像真人一样。
那么,重点来了,这些生物学特征又是如何生成的呢?
目前通常的虚拟人视频技术栈是这样的:
用3D建模技术做一个虚拟人的身体,和头部绑定。然后用动作捕捉技术去驱动,由真人像操纵木偶一样操纵这个身体,不管是动作还是声音,都是真人演绎的。
或者,用3D建模技术做一个虚拟人的身体,和头部绑定,然后用动作库匹配的方式去驱动它动起来,而这样操作的最大弊端就是动作极其不自然——「一眼假」。
相对来说最自然的就是找一个真人进行拍摄,然后换头。但成本极其昂贵,堪称「每秒几克黄金」。
而有了小冰框架的加持,效果就不一样了:
1. 通过小冰神经网络渲染技术,生成完全不存在的面部特征(AI创造面容),完全避免了对真实人脸的滥用。
2. 通过小冰神经网络渲染技术,将虚拟人的面部特征置换到视频模板中,并进行表情控制等一系列控制(AI置换面容)。听起来有点像是AI换脸,但技术上的复杂度区别很大,而且自然度也无法做到这个程度。
3. 通过小冰数字孪生技术,根据实际视频的内容,可以调整视频模板。例如动作的变化、表情和表达内容的变化等。
4. 通过小冰超级自然语音技术,生成虚拟人的高质量演唱声线(AI创造声音),并根据需要生成对应的歌声。这样,背后不再需要任何配音演员。
5. 通过以上过程,使面容、表情、声音全部统一在一起,形成无法与真人区分的内容。
现在,三次元虚拟人可谓是大势所趋,不仅是各种形象如雨后春笋一般产生,而且吸粉无数。
去年年底,「柳夜熙是谁?」在抖音疯狂刷屏,还引发了各种跟风模仿。柳夜熙仅靠着2条短视频,就获得了426万点赞,涨粉200多万,并在一周后粉丝数超过430万。
然而,几乎所有的角色逃不开的「悖论」就是,是想要看起来自然,还是想控制成本。
例外倒也有,不错,就是那个见于未萌的小冰。
2017年,小冰团队就提交了一个名为《Creating a Conversational Chatbot of a Specific Person》的专利。
历经3年,专利于2020年11月11日正式获批。
专利提出了一个创建特定人物的对话式聊天机器人的系统和方法。
比如,这里有个路人甲,那么首先你需要访问ta的社会数据(例如,图像、语音数据、社交媒体、电子信息、书面信函等)。
然后建立以路人甲的个性为主题的特殊索引,并用这个索引来训练用于聊天机器人,使机器人能够以路人甲的个性与其他人进行交谈。
此外,还可以使用路人甲的图像、深度信息和视频数据生成特定人的二维或三维模型。
说到这里,是不是有股浓浓的「黑镜」风。
虚拟人与人类混居时代?
有人说,2021年是元宇宙元年,更是虚拟人的元年。
2022年,将迎来虚拟人的出生潮。
不可否认,数字虚拟人和元宇宙之间有着密不可分的关系。现在存活在数字世界中的虚拟人,在未来就有可能是我们真人在元宇宙当中的分身。
在《黑镜》Be Right Back一集中,女主角玛莎的男友在车祸中丧生。
为了再现逝者「音容笑貌」,女主便用男友过去在社交媒体上发布的照片、视频等信息创建了一个新的虚拟男友。
现实中,也有同样的故事。
2021年7月,一位美国男子Joshua Barbeau在未婚妻去世后,利用GPT-3重建了一个AI聊天机器人以复刻死去的未婚妻。
Barbeau在Project December系统中上传了未婚妻生前的社交媒体信息,并提供一些背景信息,然后AI模型可以惊人地准确度模仿他的未婚妻语言风格。
而这,也不仅仅是一家的愿景。
2021年12月15日,《Nature》刊登了来自MIT研究团队的论文《AI-generated characters for supporting personalized learning and well-being》。
该论文指出,机器学习的技术进展,让文本、图像、音频和视频数据的超现实合成成为可能,也就是AI生成内容和AI创造虚拟人,将充分激发人们的灵感和兴趣。
通过AI生成内容和AI创造虚拟人,可以无中生有地生成任何人的脸、身体和声音,从虚构角色到历史人物,甚至是已故亲友。
不过相比于已经能够应用于工业化生产的小冰框架,Nature的这篇论文还在讨论AI内容生成的pipeline,距离三次元的虚拟人还有不小的距离。
当我们展望未来时,我们预见到AI内容生成和AI创造虚拟人将成为人机交互的主流。
这也是步入未来元宇宙的重要一步。
未来,元宇宙能够为虚拟人带来更多的想象空间。它们能够在一个完全的虚拟数字世界里,假象设定一些场景,进一步去学习,进而学习到人类在真实物理世界中可能还没有产生出的新的创意。
那么,虚拟人究竟是不是程序加上动图,程序加上表情图?
小冰CEO李笛介绍,「真正的虚拟人我们应该用body和soul,就是身体和内里的灵魂。而人设,我个人认为就是很表象的东西。表象东西就是为了和内里能够匹配。」
当身体和灵魂在一起时,我们就能看到更加鲜活的数字人。这也正是小冰对未来虚拟人的创作的一个愿景。
在小冰团队看来,未来不会只有几个人工智能助理的。
AI beings将是无处不在的,甚至我们每个人都会被各种各样性格,能力也丰富多彩的AI beings环绕着。
他可能是AI人类观察者,带有一口浓重山东口音的大哥,也可能是你的替身。
所以,虚拟人类可能未来甚至超过我们人类的人口,未来一定是「人与AI混居的世界」。