还记得我之前曾经介绍过的一个模型Rerender,这个AI模型能够有效的解决视频生成中“闪烁”问题。
可以看到,生成的视频很丝滑,而且人物的动作衔接的很连贯。但是Rerender模型一直没有公开开源代码。
好消息是,来自香港科技大学的学生,也很好的解决了视频生成的“闪烁”问题,而且可以任意转换图片风格。同时他们将代码进行开源,可以自己进行操作。
他们发布的模型称为CoDeF。那我们可以先来看看它生成视频的效果:
在对于人物的转换上,也表现出很丝滑的效果,动作和形态都比较相似:
不仅仅在人物生成上,风景的风格转换也表现很出色:
网友看了都直呼
应用效果效果确实很好
这是疯了把!这就是AI视频生成的未来
那这个模型到底是什么做到的呢?从官方文档中介绍,CoDef是内容变形场的缩写(content deformation field),它将输入视频分解为2D内容规范场(canonical content field)和3D时间形变场(temporal deformation field):
他们首秀按在一张图片上进行转换,然后再转换为视频-视频之间的转换。更重要的是,由于仅在一张图像上部署算法的提升策略,与现有的视频到视频转换方法相比,在处理的视频中实现了卓越的跨帧一致性,甚至能够跟踪非刚性物体,例如水和烟雾。
手把手教学
下面我将一步一步教你如何制作自己生成的视频,代码参考了:https://colab.research.google.com/github/camenduru/CoDeF-colab/blob/main/CoDeF_colab.ipynb
第一步,上传自己的视频
这里首先把自己的视频转换成一帧一帧的图片。比如我们把下面的视频转换成图片:
利用软件ScreenToGif把上面的视频转换成图片:
运行代码,然后会下载代码得到CodeF文件夹目录。
把刚刚保存的图片上传到图片中的目录下
第二步,开始训练
在configs目录下,生成一个base.ymal文件,这个文件主要是定义训练参数,设置图片的大小等等,具体参数设置可以看下图
执行训练代码后,生成last.ckpt文件
然后再生成canonical图片,执行代码后会在results文件夹下生成canonical_0.png
第三步,生成视频
然后我们可以把自己所要生成的风格图片上传上去,这里可以用Stable Diffusion进行生成: