论文题目:VToonify: Controllable High-Resolution Portrait Video Style Transfer 来源:ACM TOG(SIGGRAPH Asia 2022) 作者:Shuai Yang 等 内容整理:张雨虹 项目地址:https://www.mmlab-ntu.com/project/vtoonify/ 论文链接:https://arxiv.org/pdf/2209.11224v1.pdf
目录
- 主要贡献点
- 方法
- 基于集合的肖像视频风格变换
- 基于实例的肖像视频风格变换
- 实验
- 实验结果
主要贡献点
- 分析了 StyleGAN 固定大小的局限性,并提出了一个与 StyleGAN 变换相当的解决方案。
- 提出了一个新的全卷积 VToonify 框架来实现可控高分辨率肖像视频风格变换。
- 基于 Toonify 和 DualStyleGAN 建立了 VToonify,来实现基于集合和基于范例的肖像视频风格变换。
- 设计了一种数据友好型训练方案,并提出了用于保留时间一致性的无光流闪烁一致损失。
方法
基于集合的肖像视频风格变换
基于集合的任务变换了样式的整体集合,以 Toonify 作为 backbone,Toonify 使用了原始的 StyleGAN,并且仅以样式编码作为条件。
网络结构
模型初始化
训练目标
重建损失
对低分辨率图像
进行风格化处理来生近似高分 groundtruth 的图像。
对抗损失
抖动压缩损失
时间一致性是视频风格变换中需要重点考量的因素,在面向图像的 Toonify 去生成带有精确光流和高时间一致性的配对视频数据是不现实的。因此,我们提出了模拟相机一帧上的运动的方案。
如图所示,相机在有限视野下的平行运动捕捉了单帧的两个子帧。如果相机离脸部诅咒远,则可以忽略 3D 效应,且两个子帧的重叠区域是相同的、风格化后的结果也是相同的。抖动压缩损失如下:
是随机裁剪操作,将其中一个子帧作为整帧来进行简单的计算,帧
在原始分辨率进行裁剪,因此支持时间一致性。尽管该损失没有明确保持时间相关性,也没有明确计算光流,但它本质上假定的是均匀光流,该方案可以有效解决闪烁问题。
总的损失函数
面部解析映射光滑性
风格化的时间一致性有赖于输入帧的时间一致性。在本文中,视频帧通过解析映射得到增强,解析映射的不一致性可能违反这一假设。为了解决这一问题,提出了一种人脸解析映射平滑算法来加强连续人脸解析映射之间的时间一致性。
直观上看,相邻帧中匹配更好的区域具有较大的融合权值。如图 8 所示,通过考虑相邻的预测,有效地平滑衣领区域的闪烁,衣领区域更一致地风格化。
基于实例的肖像视频风格变换
该任务是基于参考图像的样式对输入图像进行风格化处理,使用 DualStyleGAN 作为 backbone,它给 StyleGAN 添加了外部样式路径,并以内在样式编码、外部样式编码、风格化程度作为条件。
结构样式程度
,颜色样式程度
决定了应用样式的强度。
可控风格变换网络架构
修正的 ModRes 结构风格控制
数据生成
模型初始化
初始化融合模块映射
。最小化如下损失函数来预训练
:
训练目标
不同任务的训练设置:
- 结构样式控制:实现在单个模型中浏览不同结构样式的应用,从样式集合中采样不同的样式图像来生成训练数据。
- 调整结构样式程度:实现在单个模型中浏览不同结构样式程度,当生成数据时,只采样
,用一个新的损失项来规范注意力 mask
:
表示
中元素个数,
是一个
上单调递减函数,直观上,大的
产生小的
,模型预测更粗的
,从输入帧中利用更少的信息,为更大的面部结构调整提供空间。
- 颜色和纹理样式控制:实现参考样式的模仿,训练数据生成时设置
。本质上支持颜色样式程度的控制,测试期间,只需要从样式图像和输入帧中插入颜色样式代码。设置
,关闭颜色抖动,让模型更好地保留帧颜色和纹理。
实验
VToonify 模型和设置总结如下:
实验结果
可以看到 VToonify-Ds 支持所选风格实例图像的细级控制,如 (c) 所示,面部结构会变得越来越可爱。VToonify-Dd 支持风格程度的调整。
时是完全的超分网络,
时实现更强的风格化。
支持上述两种控件。
时间比较(单张 NVIDIA Tesla V100 GPU):
与其他方法的比较: