腾讯发布EMO的开源平替V-Express，可以根据单张照片生成对口型的说话视频

2024-06-03 19:37:45 浏览数 (3)

腾讯AI实验室与南京大学合作开发了一款前沿的头像视频生成模型V-Express，该模型能够根据单张个人照片生成高质量的说话视频。V-Express通过独特的渐进式训练和多信号融合技术，实现了对音频、姿势和图像等多种控制信号的精准处理，尤其优化了在音频信号较弱情况下的视频生成效果。

V-Express的核心技术包括条件丢弃和渐进式训练，这两种方法能够在训练过程中逐步提升较弱控制信号的影响力，确保生成的视频既逼真又符合用户预期。此外，该模型还引入了多信号融合技术，能够整合文本、音频、图像参考、姿势和深度图等多种信号，通过生成网络创建符合所有信号要求的视频内容。

V-Express特别适用于需要生成逼真头像视频的开发者和研究人员，如人机交互、虚拟助手、游戏和娱乐领域的专业人士。例如，该模型可以用于生成特定人物的虚拟新闻主播视频，为在线教育平台创建虚拟教师，或在游戏开发中生成非玩家角色的对话动画。

实验验证显示，V-Express在处理音频等弱信号方面表现卓越，能够生成高质量的肖像视频，视频的口型动作和面部表情与音频高度同步，显著提升了视频的自然度和真实感。

通过技术创新和实际应用的结合，V-Express不仅提高了视频生成的质量和效率，还为相关领域的研究与开发打开了新的可能性，推动了视频生成技术的发展。

0 人点赞