Subjects: cs.CV
1.MotionDirector: Motion Customization of Text-to-Video Diffusion Models
标题:MotionDirector:文本到视频扩散模型的运动定制
作者:Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
文章链接:https://arxiv.org/abs/2310.08465
项目代码:https://showlab.github.io/MotionDirector/
摘要:
大规模预训练扩散模型在不同的视频生成中表现出了卓越的能力。给定一组具有相同运动概念的视频剪辑,运动定制的任务是调整现有的文本到视频扩散模型以生成具有该运动的视频。例如,生成汽车在特定摄像机运动下按规定方式移动的视频来制作电影,或者展示熊如何举重的视频来激发创作者的灵感。已经开发了适应方法来定制主题或风格等外观,但尚未针对运动进行探索。扩展运动定制的主流自适应方法非常简单,包括完整的模型调整、附加层的参数高效调整和低阶自适应(LoRA)。然而,通过这些方法学习的运动概念通常与训练视频中的有限外观相结合,使得很难将定制的运动推广到其他外观。为了克服这一挑战,我们提出了 MotionDirector,它采用双路径 LoRA 架构来解耦外观和运动的学习。此外,我们设计了一种新颖的外观去偏时间损失,以减轻外观对时间训练目标的影响。实验结果表明,所提出的方法可以为定制动作生成不同外观的视频。我们的方法还支持各种下游应用,例如将不同视频分别与其外观和运动混合,以及使用自定义运动对单个图像进行动画处理。我们的代码和模型权重将被发布。
2.HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
标题:HyperHuman:具有潜在结构扩散的超现实人类生成
作者:Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
文章链接:https://arxiv.org/abs/2310.08579
项目代码:https://snap-research.github.io/HyperHuman/
摘要:
尽管大规模文本到图像模型取得了重大进展,但实现超现实的人类图像生成仍然是一项理想但尚未解决的任务。Stable Diffusion 和 DALL-E 2 等现有模型往往会生成部分不连贯或姿势不自然的人体图像。为了应对这些挑战,我们的主要见解是,人类图像本质上具有多个粒度的结构,从粗粒度的身体骨骼到细粒度的空间几何。因此,在一个模型中捕获显式外观和潜在结构之间的这种相关性对于生成连贯且自然的人类图像至关重要。为此,我们提出了一个统一的框架 HyperHuman,它可以生成高度真实和多样化布局的野外人类图像。具体来说,1)我们首先构建一个以人类为中心的大规模数据集,名为 HumanVerse,它由 3.4 亿张图像组成,具有人体姿势、深度和表面法线等全面注释。2)接下来,我们提出了一种潜在结构扩散模型,该模型可以同时对深度和表面法线以及合成的 RGB 图像进行去噪。我们的模型在统一网络中强制执行图像外观、空间关系和几何形状的联合学习,其中模型中的每个分支在结构意识和纹理丰富性方面相互补充。3)最后,为了进一步提高视觉质量,我们提出了一种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有最先进的性能,可以在不同的场景下生成超逼真的人类图像。项目页面:此 https URL
3.Dynamic Appearance Particle Neural Radiance Field
标题:动态外观粒子神经辐射场
作者:Ancheng Lin, Jun Li
文章链接:https://arxiv.org/abs/2310.07916
项目代码:https://snap-research.github.io/HyperHuman/
摘要:
神经辐射场 (NeRF) 在 3D 场景建模中显示出巨大的潜力。动态 NeRF 通过捕获时变元素(通常使用变形场)来扩展此模型。现有的动态 NeRF 对光辐射和变形场采用类似的欧拉表示。这导致外观和运动紧密耦合,并且缺乏物理解释。在这项工作中,我们提出了动态外观粒子神经辐射场(DAP-NeRF),它引入了基于粒子的表示来对动态 3D 场景中视觉元素的运动进行建模。DAP-NeRF 由静态场和动态场的叠加组成。动态场被量化为{em外观粒子}的集合,它携带场景中小的动态元素的视觉信息,并配备有运动模型。所有组件,包括静态场、粒子的视觉特征和运动模型,都是从单目视频中学习的,无需事先了解场景的任何几何知识。我们为基于粒子的模型开发了一个有效的计算框架。我们还构建了一个新的数据集来评估运动建模。实验结果表明,DAP-NeRF 是一种有效的技术,不仅可以捕获 3D 动态场景中的外观,还可以捕获具有物理意义的运动。