在CVPR 2019 Workshop NTIRE 2019 视频恢复比赛中,来自商汤科技、港中文、南洋理工、深圳先进技术研究院的联合研究团队获得了全部四个赛道的所有冠军!
近日,作者们已经将所使用的EDVR算法论文发布于arXiv,并称代码将于本月开源。
NTIRE Workshop 全称为:
其主要关注图像与视频的恢复与增强(包含超分辨率、去模糊等),并每年举办比赛,今年其仍与CVPR 2019 一起举办。
今年分别设立了图像和视频恢复、增强的比赛,以下是视频恢复和增强比赛的全部四个赛道:
分别包含两个视频去模糊和两个视频超分辨率赛道。
商汤在此比赛中使用EDVR一套算法包揽四项冠军,而且是大幅超越每个赛道的第二名!
商汤获奖算法的论文为《EDVR: Video Restoration with Enhanced Deformable Convolutional Networks》,以下是作者信息:
视频恢复不是图像恢复的简单应用,因其含有大量的时空冗余信息可以利用。
下图是对同一区域,使用目前最好的图像超分辨算法RCAN恢复和使用EDVR算法视频超分辨率的结果,可以明显看出,视频超分辨出的结果能看到更多的细节。
算法创新点
作者认为要解决视频增强,必须要解决两大问题:
1. 图像对齐。
视频相邻帧存在一定的抖动,必须先对齐才能进一步处理融合。以往这可以使用光流算法处理,但本文中作者发明了一种新的网络模块PCD 对齐模块,使用Deformable卷积进行视频的对齐,整个过程可以端到端训练。
2. 时空信息融合。
挖掘时域(视频前后帧)和空域(同一帧内部)的信息融合。本文中作者发明了一种时空注意力模型进行信息融合。
作者发明的EDVR算法架构:
其中PCD 对齐模块,使用金字塔结构级联的Deformable卷积构建,如下图:
作者发明的时空注意力融合模型TSA如下图:
实验结果
作者将EDVR算法应用于三个视频超分辨率数据集上的数值结果如下(请点击查看大图):
可见该文提出的算法在Vid4数据集上大部分是最高或者次高精度,而在Vimeo-90K-T 与REDS4 数据集上都是精度指标最高的。
下图是该文算法超分辨率效果示例(请点击查看大图):
上图中对模糊车牌的恢复是不是很神奇!这会是很有用的应用领域。
下面的表格列出了本次比赛前五名的成绩,EDVR取得了毫无争议的第一,并且大多数情况是大幅超越第二名!
这是一项非常棒的工作,强烈推荐大家关注!
论文地址:
https://arxiv.org/abs/1905.02716v1
开源地址:
https://github.com/xinntao/EDVR