针对压缩视频理解的编码框架

2023-10-28 16:43:07 浏览数 (3)

来源:arXiv 2022 题目:A Coding Framework and Benchmark towards Compressed Video Understanding 作者:Yuan Tian, Guo Lu, Yichao Yan, Guangtao Zhai, Li Chen, Zhiyong Gao 原文链接:https://arxiv.org/abs/2202.02813 内容整理:刘潮磊 视频理解任务在计算机视觉领域备受关注,但是很少研究各种计算机视觉方法在压缩视频上的表现,而在实际场景下,视频理解通常是视频压缩的下游任务。因此,需要研究传输比特率和视频理解性能的权衡。本文提出面向理解的视频编码框架(UVC),引入了轻量可学习分析流来编码下游分析所需信息,兼顾工业编解码器的高效性和深度学习的编码能力。并且,本文利用任务无相关的边缘图保真度作为优化目标,以自监督方式完成对框架的优化,提升了实际部署效果。

引言

背景

  • 从(压缩后的)低分辨率视频重建高分辨率视频很难
  • (压缩后的)低分辨率视频对下游任务不友好
  • video understanding tasks算法大多针对原视频,但实际中常用于压缩后的视频

目的

  • 减少传输码流大小
  • 优化下游任务效果,并减少下游任务计算量
  • 提升重建视频的质量(但不是主要关注点)

特点

  • 构建了双流结构,补偿压缩视频中缺失的信息
  • 优化是和任务无关的,无监督的

贡献

  • 解决由编码引起的视频理解任务效果不佳
  • 无监督的,单个优化过程能很好地对接多种后续任务
  • 网络结构是动态的、自适应的,可以减少比特损耗

相关工作

视频压缩

视频编码算法有很多,如广泛应用的H.264、H.265,但是它们都是为了更好地保证重建视频有着更高的质量,并且编码的质量指标(PSNR、SSIM)都是为了保证人的视觉体验设计的,没有专门为下游AI相关任务设计编码算法。

自监督语义学习

主要方法有:对比学习(Contrative Learning)、掩码图像建模(Contrative Learning)

  1. 对比学习:将某一图像增强的图像作为正样本,其余图像作为负样本。学到的语义信息依赖于所采用的增强方法,并且偏重于全局语义。
  2. 掩码图像建模:从未被掩盖的块中预测出被掩盖的块。

框架

图1

分析流编码器(Enc-Net)

图2

  1. 将每一帧作为输入进行降采样;
  2. 使用D-GFM进行混合;
x_{l 1},d_{l 1}=D-GFM(Down(x_l),Down(d_l))quad(1)
x_{0}=X^i,d_{0}=D^iquad(2)
  1. 输出使用一个3D CNN处理;
  2. 最终由一个熵编码器编码成分析流。

D-GFM

图3

  1. 帧特征增强:使用Att-G(两组卷积)产生attention map,增强
x_l'

  1. 生成自适应核表:x经过平均池化、MLP得到AdaKT;
  2. 区域自适应特征提取:
d_{l 1}

经过一个卷积得到AdaKM,再用查找表得到AdaK;

  1. 最后与x相乘得到
x_{l 1}

视频重建网络(R-Net)

图4

  1. 降采样(倍率为4);
  2. 使用一个CNN进一步降采样,并增加通道数;
  3. 用Tdense处理
S^i

得到前半、后半分别是

0 人点赞