CoDeF解决生成视频“闪烁”问题

2024-10-09 18:11:54 浏览数 (2)

还记得我之前曾经介绍过的一个模型Rerender,这个AI模型能够有效的解决视频生成中“闪烁”问题。

可以看到,生成的视频很丝滑,而且人物的动作衔接的很连贯。但是Rerender模型一直没有公开开源代码。

好消息是,来自香港科技大学的学生,也很好的解决了视频生成的“闪烁”问题,而且可以任意转换图片风格。同时他们将代码进行开源,可以自己进行操作。

他们发布的模型称为CoDeF。那我们可以先来看看它生成视频的效果:

在对于人物的转换上,也表现出很丝滑的效果,动作和形态都比较相似:

不仅仅在人物生成上,风景的风格转换也表现很出色:

网友看了都直呼

应用效果效果确实很好

这是疯了把!这就是AI视频生成的未来

那这个模型到底是什么做到的呢?从官方文档中介绍,CoDef是内容变形场的缩写(content deformation field),它将输入视频分解为2D内容规范场(canonical content field)和3D时间形变场(temporal deformation field):

他们首秀按在一张图片上进行转换,然后再转换为视频-视频之间的转换。更重要的是,由于仅在一张图像上部署算法的提升策略,与现有的视频到视频转换方法相比,在处理的视频中实现了卓越的跨帧一致性,甚至能够跟踪非刚性物体,例如水和烟雾。

手把手教学

下面我将一步一步教你如何制作自己生成的视频,代码参考了:https://colab.research.google.com/github/camenduru/CoDeF-colab/blob/main/CoDeF_colab.ipynb

第一步,上传自己的视频

这里首先把自己的视频转换成一帧一帧的图片。比如我们把下面的视频转换成图片:

利用软件ScreenToGif把上面的视频转换成图片:

运行代码,然后会下载代码得到CodeF文件夹目录。

把刚刚保存的图片上传到图片中的目录下

第二步,开始训练

在configs目录下,生成一个base.ymal文件,这个文件主要是定义训练参数,设置图片的大小等等,具体参数设置可以看下图

执行训练代码后,生成last.ckpt文件

然后再生成canonical图片,执行代码后会在results文件夹下生成canonical_0.png

第三步,生成视频

然后我们可以把自己所要生成的风格图片上传上去,这里可以用Stable Diffusion进行生成:

0 人点赞