机器之心报道
参与:杜伟、魔王
只输入语音便能生成人体姿势。瑞典皇家理工学院的研究者做到了!
你能看出上图中的人物姿势是仅基于一段语音生成的吗?
基于语音生成上半身动作甚至全身姿势,并实现速度、对称度等高级的姿势控制,瑞典皇家理工学院的一项研究做到了。
该研究提出的方法不仅能够基于语音合成对应的姿势,还可以为同样的语音生成不同的姿势:
上面这两组姿势竟然表达的是同一段话?
仅仅这样还不够,该方法还提供高级的风格控制,比如速度:
左右方姿势的对称度:
说话时姿势动作的半径范围,动作幅度的大小尽在掌控:
甚至还能控制一侧手臂的高度位置:
此外,该方法还可以生成全身的姿势动态,包括站姿的变化和脚步的移动:
具体效果参见视频:
Demo 展示的效果征服了一批 reddit 网友。他们表示,如果能将这个技术用在游戏(如《无人深空》)或 VR 产业,那么无需昂贵的人体动作捕捉就能生成逼真的高质量动作,这可以大大降低游戏的开发成本,也能让对话情境下的 VR 人物更加逼真。
那么,如此逼真的姿势动作是如何生成的呢?我们来看这项研究的具体细节。
只用语音生成人物姿势
逼真姿势的自动合成有望改变动画、替身和交际智能体领域。在离线应用中,新工具可以将动画师的角色转变为导演,他只需为期望的动画效果提供高级输入即可。之后,学得的网络将这些指令转换为适当的身体姿势序列。在交互场景中,实时生成自然动画的系统是塑造可信和关联角色的关键所在。
瑞典皇家理工学院的研究者通过对 MoGlow 这一基于深度学习的动作合成方法进行改进,提出了一种新的生成模型,该模型可实现当前最优的语音驱动姿势生成。
得益于该方法的概率属性,在给定相同输入语音信号的情况下,该模型可以生成多个不同且合理的姿势,实现动作的自然变化。
- 论文主页:https://diglib.eg.org/handle/10.1111/cgf13946
- 项目地址:https://github.com/simonalexanderson/StyleGestures
研究者还展示了该模型对输出风格施加指引性控制的能力,如姿势高度、速度、对称度和空间活动范围。这类控制可用来传达期望角色的个性或情绪。研究者在未对数据做任何手动标注的情况下,实现了以上功能。
在实验部分,用户研究表明,该方法生成的上半身姿势动作自然,并且与输入语音非常匹配。该方法的评分高于先前所有的此类系统和基线方法,并且接近原始记录动作的评分。
研究者进一步发现,该方法可以在不损失动作的感知自然度的情况下,准确地控制姿势风格。
最后,研究者展示了该方法同样适用于行走和站立等全身姿态的动作合成。
接下来,我们来看该模型的实现原理和具体效果。
实现原理
该研究提出的概率生成模型基于近期关于归一化流的工作构建,尤其是 MoGlow [HAB19]。该模型可在大型非结构化运动数据集上进行训练,且数据无需手动标注。
与直接基于语音合成动作的方法不同,该模型的训练过程中将语音作为输入,建模动作的条件概率分布。这样就可以基于概率分布采样新的姿势,从而每一次都可以生成不同却合理的姿势。这与人类行为一致,并且可以为虚拟智能体和动画行业提供不错的应用优势。
该方法的优势包括:
- 数据集无需手动标注;
- 具备不确定性(因而可以得到无限种类的姿势变体);
- 能够输出全身姿势。
具体而言,在实现语音驱动姿势合成的过程中,研究者使用了归一化流(normalising flow)。完整的动作生成流程如下图 1 所示:
该模型的思路是在使用归一化流的姿势序列
稳定自回归模型中,学习姿势 X 的多维下一步(next-step)分布。归一化流这一通用技术在表示大量连续值分布 p(x) 时能够同时实现高效推理(概率计算)以及高效的分布采样。
整体转换和中间结果表示如下:
此外,归一化流的核心难题是设计出一个灵活、可逆、可微分且具有快速计算雅克比行列式(Jacobian determinant)的 f_n 变换参数族。2018 年,Diederik P. Kingma 等研究者提出了 Glow 方法,在生成面部图像上实现了显著的效果。之后,又出现了改进版 MoGlow。
MoGlow 专注于零算法延迟的运动控制,并不非常适合语音驱动姿势合成任务。与语音同时出现的人体姿势可以分割为准备、执行(stroke)和撤回三个阶段。
基于此,该研究令时间实例 t 时的控制输入 c_t 同时包含当前语音特征 a_t 以及周围语音特征
的视窗(window),从而将足够的未来信息考虑在内。完整的动作生成流程如上图 1 所示。
实现效果如何?
在所有实验中,评分者需要观看和聆听人体姿势的 18 秒视频片段(如下图所示),并根据给定的评分标准进行打分(5 分制)。
人体相似性和适当性评估
下图 3 和表 1 展示了人体相似性、适当性、风格控制人体相似性和全身姿势人体相似性的平均得分:
风格控制评估
下图 4 展示了风格控制对系统生成动作的影响,其中每一行表示不同的风格控制系统(分别是 M-H、MG-V、MG-R 和 MG-S)。
全身姿势评估
评估结果如上图 3 中最右侧图,全身 GT 平均得分为 4.005,FB-C 平均得分为 3.764,FB-U 平均得分为 3.421。
全身姿态的人体相似性评估结果。
缺陷
这项研究在 reddit 上引起了广泛关注和讨论。除了对模型效果表示赞叹以外,也有网友发现了其中需要改进的地方。
例如,有网友指出:「这个模型可以恰当地对节奏和语音强度做出反应,但它似乎并不怎么关注真实的语音信息内容。」
对此,作者之一 Gustav Eje Henter 表示同意:
你说的对!这个模型仅倾听语音(没有文本输入),但并不包含任何人类语言模型。我认为,使用这类模型生成具备语义意义的姿势(尤其还要与语音节奏保持一致)仍是一个未解难题。
该网友还提出了数据问题:「要想使模型达到合理的效果,可能需要大规模数据集。」
对于,Henter 也表示认同:
数据是目前的主要瓶颈。该模型基于同一个人的大约四小时的姿势和语音数据。我们很难找到足够的高质量语音和动作平行数据。一些研究者使用 TED 演讲,但是从此类视频中提取的姿势动作看起来不具备说服力,不够自然。(好的运动数据需要运动捕捉设置和仔细的数据处理。)因此,该研究目前使用的是较小型的高质量数据集。
参考链接:
https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/
https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/fxuytg1/