▊ 文章信息
标题:Benchmarking the Robustness of Spatial-Temporal Models Against Corruptions
代码语言:javascript复制论文链接:https://openreview.net/pdf?id=MQlMIrm3Hv5
项目链接:https://github.com/Newbeeyoung/Video-Corruption-Robustness
▊ 1. 概述
神经网络和大规模数据集推动了图像和视频分析领域巨大的发展,但是现在大部分数据集只考虑不加噪声和扰动的干净数据进行模型评估。在模型的实际部署中,我们会遇到各种各样的扰动,比如天气变化,镜头的移动,系统的错误或数据流失。
计算机视觉模型在这种环境中面对扰动的可维持性即是对常见噪声和扰动的鲁棒性(Common Corruption Robustness)。在单个图像相关的计算机视觉任务中,这些扰动会造成模型表现很大程度地恶化。相应地在视频分析中,时序信息或许会提高模型对这些自然生成扰动的鲁棒性,但是还没有人做过相关的系统性研究。
所以我们选择视频识别作为视频分析领域的突破口,自然而然地提出几个研究问题:
1)现在的视频分类模型大量使用时序信息,是否对模型鲁棒性有帮助?
2)模型是否对带时序信息的扰动(Temporal Corruption)具有鲁棒性?比如在视频传输中丢包造成的扰动会在后续的视频帧造成更大的扰动。
3)模型的鲁棒性(Robustness),泛化性(Generalization)和效率(Efficiency)是否有冲突?
针对以上几个问题,新加坡南洋理工大学ROSE实验室提出视频分类(Video Classification)鲁棒性的新基准。这个基准包括两个数据集Mini Kinetics-C和Mini SSV2-C,并且从空间和时间域(Spatial Temporal Domain)考虑不同的自然产生的噪声和扰动。
这两个数据集是基于广泛应用的视频分类数据集 Kinetics 和 Something-Something V2。前者更依赖于单个帧的空间信息,后者则更依赖与连续帧中包含的时序信息。
在此基础上,我们设计了12种不同的噪声和扰动并添加在数据集验证集的原有视频上。需要注意的是,在评估模型鲁棒性时,我们通常使用原有的干净数据集做训练,并在添加噪声和扰动的验证集上做评估。在使用我们设计的基准评价最新发表的基于CNN和Transformer的视频分类模型后,我们发现了几个趋势:
1)基于Transformer的模型比基于CNN的视频分类模型更鲁棒
2)模型的鲁棒性和泛化性正相关,但是和模型的效率相冲突。效率包括模型的大小和需要计算的次数。
3)模型对带时序信息的扰动(如动态模糊,比特错误等)更加鲁棒,而对仅带空间信息的扰动(Spatial Corruption)(如散射噪声,雨滴等)不够鲁棒
4)在训练集中添加随机噪声不能提高模型鲁棒性。虽然这种方法在单个图像相关的任务中比较有效。
▊ 2. 构建基准
评价指标
模型对单个扰动的鲁棒性,c指扰动类型,s指扰动的严重程度,Ns指严重程度的分级:
当我们在现实生活中部署计算机视觉系统时,我们假设系统对可能产生的噪声和扰动是未知的。我们通常用模型在各种扰动下的平均表现来评价模型的Common Corruption Robustness:
- 模型对单个扰动的鲁棒性,c指扰动类型,s指扰动的严重程度,Ns指严重程度的分级:
- 模型的平均扰动鲁棒性,Nc指扰动类型数量
基准数据集
我们在原有的Kinetics和SSV2数据集验证集的基础上分别添加12类扰动,包括:
- 视频采集中:散射噪声,动态模糊,雾天,雨天,光线变化,对比度变化,饱和度变化
- 视频处理中: H265 ABR压缩,H265 CRF压缩,比特错误,丢包,视频帧数转换
并且每一种扰动包含5级严重程度,总体来说我们设计的鲁棒性验证集是原有验证集的12x5=60倍大小。如图为基准数据集中的实例。另外这12种扰动也可以按照空间和时域来进行分类,在下面的基准研究里我们有做相应分类。
▊ 3. 视频鲁棒性基准研究
基于我们提出的视频鲁棒性基准,我们采用最新的视频分类模型做训练,其中包括:S3D, I3D, 3D ResNet, SlowFast, X3D, TAM, and TimeSformer。以下为鲁棒性基准的结果:
我们发现模型鲁棒性和泛化性有正相关性,即同时增长或降低。相反的,模型的鲁棒性和其效率相冲突,即模型越大(Parameter size),鲁棒性越高;模型计算所需操作越多(FLOPs),其鲁棒性越高。
另外,我们尝试使用最基础的数据增强方法训练模型,发现高斯噪声对模型表现基本没有提升。这个结果和单个图像任务中的趋势不一致,也给了我们研究和创造视频分类中数据增强方法提供了考研。
▊ 4. 结语
我们这篇论文提出了视频分类鲁棒性的新基准,并且对模型的设计和训练提出一些经验性的分析和指引。在现实的视频分析模型部署中,模型对常见噪声和扰动的鲁棒性是不得不考虑的一个指标,我们踏出第一步对模型鲁棒性进行合理的评估。
作为视频分析中一个新的维度,扰动鲁棒性(Common Corruption Robustness)还有巨大的空间值得我们去研究和提高。
END