Subjects: cs.CV
1.VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
标题:VideoCrafter1:用于生成高质量视频的开放扩散模型
作者:Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
文章链接:https://arxiv.org/abs/2310.19512
项目代码:https://ailab-cvc.github.io/videocrafter/
摘要:
视频生成越来越引起学术界和工业界的兴趣。尽管商业工具可以生成可信的视频,但可供研究人员和工程师使用的开源模型数量有限。在这项工作中,我们介绍了两种用于高质量视频生成的扩散模型,即文本到视频(T2V)和图像到视频(I2V)模型。T2V 模型根据给定的文本输入合成视频,而 I2V 模型则包含额外的图像输入。我们提出的 T2V 模型可以生成分辨率为 1024×576 的逼真和电影质量的视频,在质量方面优于其他开源 T2V 模型。I2V 模型旨在生成严格遵循所提供的参考图像内容的视频,保留其内容、结构和风格。该模型是第一个开源 I2V 基础模型,能够将给定图像转换为视频剪辑,同时保持内容保留约束。我们相信这些开源视频生成模型将为社区内的技术进步做出重大贡献。
2.Text-to-3D with classifier score distillation
标题:使用分类器分数蒸馏进行文本转 3D
作者:Xin Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Song-Hai Zhang, Xiaojuan Qi
文章链接:https://arxiv.org/abs/2310.19415
项目代码:https://xinyu-andy.github.io/Classifier-Score-Distillation/
摘要:
文本到 3D 生成最近取得了显着进展,特别是基于利用预先训练的 2D 扩散模型的分数蒸馏采样 (SDS) 的方法。虽然众所周知,使用无分类器指导对于成功优化至关重要,但它被认为是一种辅助技巧,而不是最重要的组成部分。在本文中,我们重新评估了无分类器指导在分数蒸馏中的作用,并发现了一个令人惊讶的发现:仅指导就足以完成有效的文本到 3D 生成任务。我们将这种方法命名为分类器分数蒸馏(CSD),它可以解释为使用隐式分类模型进行生成。这种新视角揭示了理解现有技术的新见解。我们验证了 CSD 在各种文本转 3D 任务中的有效性,包括形状生成、纹理合成和形状编辑,取得了优于最先进方法的结果。
3.CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models
标题:CustomNet:文本到图像扩散模型中具有可变视点的零样本对象定制
作者:Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
文章链接:https://arxiv.org/abs/2310.19784
项目代码:https://jiangyzy.github.io/CustomNet/
摘要:
将定制对象合并到图像生成中在文本到图像生成中呈现出一个有吸引力的功能。然而,现有的基于优化和基于编码器的方法存在优化耗时、身份保存不足以及普遍存在的复制粘贴效应等缺点。为了克服这些限制,我们引入了 CustomNet,这是一种新颖的对象定制方法,它明确地将 3D 新颖视图合成功能合并到对象定制过程中。这种集成有利于空间位置关系和视点的调整,产生不同的输出,同时有效地保留对象身份。此外,我们引入了精致的设计,通过文本描述或特定的用户定义图像来实现位置控制和灵活的背景控制,克服了现有3D新颖视图合成方法的局限性。我们进一步利用数据集构建管道,可以更好地处理现实世界的对象和复杂的背景。配备这些设计,我们的方法有助于零样本对象定制,无需测试时间优化,提供对视点、位置和背景的同步控制。因此,我们的 CustomNet 确保增强的身份保存并生成多样化、和谐的输出。