来源:arXiv 2022 题目:A Coding Framework and Benchmark towards Compressed Video Understanding 作者:Yuan Tian, Guo Lu, Yichao Yan, Guangtao Zhai, Li Chen, Zhiyong Gao 原文链接:https://arxiv.org/abs/2202.02813 内容整理:刘潮磊 视频理解任务在计算机视觉领域备受关注,但是很少研究各种计算机视觉方法在压缩视频上的表现,而在实际场景下,视频理解通常是视频压缩的下游任务。因此,需要研究传输比特率和视频理解性能的权衡。本文提出面向理解的视频编码框架(UVC),引入了轻量可学习分析流来编码下游分析所需信息,兼顾工业编解码器的高效性和深度学习的编码能力。并且,本文利用任务无相关的边缘图保真度作为优化目标,以自监督方式完成对框架的优化,提升了实际部署效果。
引言
背景
- 从(压缩后的)低分辨率视频重建高分辨率视频很难
- (压缩后的)低分辨率视频对下游任务不友好
- video understanding tasks算法大多针对原视频,但实际中常用于压缩后的视频
目的
- 减少传输码流大小
- 优化下游任务效果,并减少下游任务计算量
- 提升重建视频的质量(但不是主要关注点)
特点
- 构建了双流结构,补偿压缩视频中缺失的信息
- 优化是和任务无关的,无监督的
贡献
- 解决由编码引起的视频理解任务效果不佳
- 无监督的,单个优化过程能很好地对接多种后续任务
- 网络结构是动态的、自适应的,可以减少比特损耗
相关工作
视频压缩
视频编码算法有很多,如广泛应用的H.264、H.265,但是它们都是为了更好地保证重建视频有着更高的质量,并且编码的质量指标(PSNR、SSIM)都是为了保证人的视觉体验设计的,没有专门为下游AI相关任务设计编码算法。
自监督语义学习
主要方法有:对比学习(Contrative Learning)、掩码图像建模(Contrative Learning)
- 对比学习:将某一图像增强的图像作为正样本,其余图像作为负样本。学到的语义信息依赖于所采用的增强方法,并且偏重于全局语义。
- 掩码图像建模:从未被掩盖的块中预测出被掩盖的块。
框架
图1
分析流编码器(Enc-Net)
图2
- 将每一帧作为输入进行降采样;
- 使用D-GFM进行混合;
- 输出使用一个3D CNN处理;
- 最终由一个熵编码器编码成分析流。
D-GFM
图3
- 帧特征增强:使用Att-G(两组卷积)产生attention map,增强
;
- 生成自适应核表:x经过平均池化、MLP得到AdaKT;
- 区域自适应特征提取:
经过一个卷积得到AdaKM,再用查找表得到AdaK;
- 最后与x相乘得到
。
视频重建网络(R-Net)
图4
- 降采样(倍率为4);
- 使用一个CNN进一步降采样,并增加通道数;
- 用Tdense处理
得到前半、后半分别是