人工智能研究人员从静止图像创建逼真的循环视频

2021-07-12 17:08:40 浏览数 (1)

开发一种将单张照片变成可信视频的方法一直是该领域的一个挑战。华盛顿大学和 Facebook 的研究人员使用深度学习将静止图像转换为逼真的动画循环视频。

“我们的方法的特别之处在于它不需要任何用户输入或额外信息,”华盛顿大学计算机科学与工程博士生、该项目的主要作者 Aleksander Hołyński 说。“你只需要一张照片。它会输出高分辨率、无缝循环的视频,通常看起来像真实的视频。”

他们的方法已经写成论文发表《 Animating Pictures with Eulerian Motion Fields》(点击阅读原文),在这篇论文中,团队展示了一个全自动的方法来将静止图像转换成真实的动画循环视频。他们的目标是生成一个具有连续流体运动的场景,例如流水和滚滚浓烟。

方法依赖于这样一种观察:这种自然运动可以从静态欧拉运动描述中尽可能真实地重现,即单个时间恒定的流场,它定义了粒子在给定二维位置的直接运动。

团队使用一个图像到图像的转换网络对从在线视频中采集的自然场景的运动先验进行编码,以便对一张新照片合成相应的运动场。然后通过深度扭曲技术使用生成的运动为图像设置动画:将像素编码为深度特征,通过欧拉运动扭曲这些特征,并将得到的扭曲特征映射解码为图像。

为了产生连续、无缝的循环视频纹理,团队提出了一种新的视频循环技术,该技术在时间上向前和向后流动特征,然后混合结果。他们将这方法应用于大量的例子,包括海滩、瀑布和流动的河流,证明了方法的有效性和健壮性。

“它实际上需要你预测未来,”Hołyński 说。“而在现实世界中,接下来可能发生的事情几乎有无限可能。”

该团队的系统由两部分组成:首先,它预测拍摄照片时物体的移动方式,然后使用该信息创建动画。

为了估计运动,该团队用数千个瀑布、河流、海洋和其他具有流体运动的材料的视频训练了一个神经网络。训练过程包括要求网络在仅给定第一帧时猜测视频的运动。在将其预测与实际视频进行比较后,网络学会了识别线索——例如流中的涟漪——以帮助它预测接下来会发生什么。然后团队的系统使用该信息来确定每个像素是否以及如何移动。

研究人员试图使用一种称为“泼溅”的技术来为照片制作动画。该方法根据其预测的运动移动每个像素。但这产生了一个问题。

“想想一个流动的瀑布,”霍温斯基说。“如果你只是将像素沿着瀑布向下移动,那么在视频的几帧之后,顶部将没有像素!”

因此,该团队创造了“对称泼溅”。本质上,该方法预测图像的未来和过去,然后将它们组合成一个动画。

“回顾一下瀑布的例子,如果我们回到过去,像素会沿着瀑布向上移动。因此,我们将开始在底部附近看到一个洞,”Hołyński 说。“我们整合了来自这两个动画的信息,因此我们扭曲的图像中永远不会有任何明显的大洞。”

最后,研究人员希望他们的动画无缝循环以创建连续运动的外观。动画网络遵循一些技巧来保持干净,包括在不同时间转换帧的不同部分,以及根据周围环境决定混合每个像素的速度。

该团队的方法最适用于具有可预测流体运动的物体。目前,该技术难以预测反射应该如何移动或水如何扭曲其下方物体的外观。

“当我们看到瀑布时,我们知道水应该如何表现。火或烟也是如此。这些类型的运动遵循相同的一组物理定律,图像中通常有提示,告诉我们事物应该如何运动,”Hołyński 说。“我们很乐意将我们的工作扩展到对更广泛的对象进行操作,例如动画一个人的头发在风中飘扬。我希望最终我们与朋友和家人分享的照片不会是静态图像。相反,它们都将是动态动画,就像我们的方法生成的动画一样。”

为了教会他们的神经网络估计运动,该团队在 1,000 多个流体运动视频(如瀑布、河流和海洋)上训练了模型。仅给定视频的第一帧,系统将预测未来帧中会发生什么,并将其预测与原始视频进行比较。这种比较帮助模型改进了对图像中每个像素是否以及如何移动的预测。

研究人员使用NVIDIA Pix2PixHD GAN 模型进行运动估计网络训练,以及FlowNet2和PWC-Net。NVIDIA GPU 用于模型的训练和推理。训练数据包括 1196 个独特的视频,1096 个用于训练,50 个用于验证,50 个用于测试。

更多

用Jetson NANO实现真实世界超高质量的超分辨率重建

NVIDIA Jetson NANO如何帮助提高大豆产量?

0 人点赞