针对压缩视频理解的编码框架

来源：arXiv 2022 题目：A Coding Framework and Benchmark towards Compressed Video Understanding 作者：Yuan Tian, Guo Lu, Yichao Yan, Guangtao Zhai, Li Chen, Zhiyong Gao 原文链接：https://arxiv.org/abs/2202.02813 内容整理：刘潮磊视频理解任务在计算机视觉领域备受关注，但是很少研究各种计算机视觉方法在压缩视频上的表现，而在实际场景下，视频理解通常是视频压缩的下游任务。因此，需要研究传输比特率和视频理解性能的权衡。本文提出面向理解的视频编码框架（UVC），引入了轻量可学习分析流来编码下游分析所需信息，兼顾工业编解码器的高效性和深度学习的编码能力。并且，本文利用任务无相关的边缘图保真度作为优化目标，以自监督方式完成对框架的优化，提升了实际部署效果。

引言

背景

从（压缩后的）低分辨率视频重建高分辨率视频很难
（压缩后的）低分辨率视频对下游任务不友好
video understanding tasks算法大多针对原视频，但实际中常用于压缩后的视频

目的

减少传输码流大小
优化下游任务效果，并减少下游任务计算量
提升重建视频的质量（但不是主要关注点）

特点

构建了双流结构，补偿压缩视频中缺失的信息
优化是和任务无关的，无监督的

贡献

解决由编码引起的视频理解任务效果不佳
无监督的，单个优化过程能很好地对接多种后续任务
网络结构是动态的、自适应的，可以减少比特损耗

框架

图1

分析流编码器(Enc-Net)

图2

将每一帧作为输入进行降采样；
使用D-GFM进行混合；

x_{l 1},d_{l 1}=D-GFM(Down(x_l),Down(d_l))quad(1)

x_{0}=X^i,d_{0}=D^iquad(2)

输出使用一个3D CNN处理；
最终由一个熵编码器编码成分析流。

D-GFM

图3

帧特征增强：使用Att-G（两组卷积）产生attention map，增强

x_l'

；

生成自适应核表：x经过平均池化、MLP得到AdaKT；
区域自适应特征提取：

d_{l 1}

经过一个卷积得到AdaKM，再用查找表得到AdaK；

最后与x相乘得到

x_{l 1}

。

视频重建网络(R-Net)

图4

降采样（倍率为4）；
使用一个CNN进一步降采样，并增加通道数；
用Tdense处理

S^i

得到前半、后半分别是

视频理解编码框架视频压缩

0 人点赞

针对压缩视频理解的编码框架

引言

相关工作

视频压缩

自监督语义学习

框架

分析流编码器(Enc-Net)

视频重建网络(R-Net)