多标签图像识别前沿跟踪2021(上)

2021-08-19 10:35:22 浏览数 (1)

本文主要介绍一些2021年新发表的多标签图像识别工作,多标签图像识别早些时候的研究工作可以看另一篇文章

雨雪霏霏:多标签图像识别发展历程(2015~2020)2 赞同 · 2 评论文章

另外笔者也维护了一个多标签图像识别的paper list ,持续跟踪多标签图像识别相关方向上的研究工作,方便初涉该领域的同学快速上手,也欢迎大家一起讨论交流。

Awesome Multi-label Image Recognition Paper List​github.com/JiaweiZhao-git/Awesome-Multi-label-Image-Recognition

由于最新的几篇文章大多数采用了Transformer结构,因此本文先集中介绍基于transformer的工作,再进一步介绍其他文章的思路。

  • 2021 CVPR C-Tran 1

自从DETR和ViT将transformer结构引入计算机视觉领域后,研究者们纷纷在各个方向上利用transformer占坑,本篇文章便是第一篇将transformer用到多标签识别任务中的已发表工作。与一众利用transformer增强特征的工作不同,作者利用transformer的结构特性,也就是mask机制,提出了一个可以用在三种不同设定下的网络框架,分别是正常的、已知部分标签的、已知额外标签的多标签识别,值得注意的是,这三种设定是针对 测试阶段 而不是训练阶段,因此与Partial Label的工作并不相同,Partial Label的工作是指在 训练阶段 中只知道部分标签,而测试阶段不知道任何标签。

本文的结构是DETR式的CNN Transformer,为在测试阶段同时支持这三种不同的输入设定,作者在训练阶段为标签随机添加mask标注再预测其概率。其中z是CNN提取到的语义特征,l是标签的word embeddings,s是标签状态,P代表该标签存在,N代表该标签不存在,U代表该标签未知,需要预测。文章巧妙的利用了transformer的mask机制与输入可扩展性,将正常的多标签识别场景扩展到测试阶段已知部分标签以及已知额外标签的场景。

C-Tran

  • 2021 ICCV TDRG 2

本文提出一种基于transformer的双路互补关系学习框架来联合学习多标签识别中的空间依赖与共现依赖。针对空间依赖,该方法提出跨尺度Transformer建模长距离空间上下文关联,针对共现依赖,该方法提出类别感知约束和空间关联引导,基于图神经网络联合建模动态语义关联,最后联合这两种互补关系进行协同学习得到鲁棒的多标签预测结果。文章的具体细节笔者等会议结束后再具体介绍。

  • 2021 ACM MM M3TR 3

本文基于Vision Transformer提出了跨模态三元关系学习框架。针对视觉模态与标签模态之间的交互,本方法提出了跨模态注意力模块和标签引导增强模块。针对视觉模态内的交互,本方法提出了跨语义注意力模块。文章的具体细节笔者等会议结束后再具体介绍。

  • 2021 arxiv MlTr 4

本文针对多标签识别问题,改进Vision Transformer的结构,提出一种新的backbone,同时使用了多种trick来提升性能。文章将ViT中的全局self-attention替换为Pixel attention和Cross-window attention,在得到图像特征后,先对每个滑动窗口内的像素做pixel attention,再将滑动窗口内的像素拼接到一起,对滑动窗口做cross-window attention。这样做的好处一方面是相比全局self-attention参数量更小,另一方面是做cross-window attention时可以隐式地学习不同物体之间的位置关联。

MlTr

pixel attention & cross-window attention

  • 2021 arxiv Query2Label 5

本文作者基于image caption的思路以及DETR中query的设计,提出了一种将Query映射到标签预测概率的方法。之前基于transformer的识别工作往往因为无法找到合适的query,只利用transformer中的Encoder结构做特征的长距离空间关系增强。从网络结构中可以看出,本文以可学习的label embeddings作为query,以图像特征作为key和value,通过cross-attention计算对应标签的预测概率。本文方法并不依赖特定backbone,实现方法比较简单,因此可以依托较强的backbone实现很高的性能。

Query2Label

基于transformer的多标签识别工作介绍完成,可以看出在探索初期,大家对transformer的使用方法各不相同,有些工作主要利用transformer结构特性,有些工作主要利用transformer长距离关系建模的性质,但这些工作都利用了transformer对于关联建模的优势。当然最新的文章中也有一些是从其他角度解决多标签识别问题的,下面本文也将介绍他们的做法。

  • 2021 TIP MCAR 6

本文针对多标签识别提出了一种“化繁为简”的解决方案,也就是将多标签识别问题转化为单标签识别问题。不同于以往基于检测模型提取物体位置的方法,本文并不依赖额外的模型,而是在多标签网络训练时基于attention定位不同类别的位置,并将定位到的区域裁剪出来再次经过网络做单标签识别,最后将多标签识别与单标签识别的预测结果结合起来作为最终的预测结果。文章思路清晰,结构简洁,也为多标签识别提供了新的解决思路。详情可见文章作者在知乎上的回答 知乎 MCAR

MCAR

  • 2021 ICCV ASL 7

本文针对多标签识别中正负样本数量不均衡、标注存在缺失的问题,提出一种不对称损失函数ASL来解决这两个问题。Focal loss中对正样本和负样本的γ项可以有效减少简单负样本的权重,但是也会导致一些出现很少的正样本权重也被减小,因此本文对正样本和负样本分别用两个不同的γ项(γ- > γ )。同时为了在训练中忽略简单负样本,作者让预测概率低于某阈值下的负样本对应的概率为0,作者对这两处改进在文中做了非常细致的分析与可视化,证明了这种改进方式既可以忽略非常简单的负样本,也可以减轻对标错负样本的拟合。本文提出的损失函数可以直接添加到现有网络中替换现有损失函数,对于一些业务场景也许会有不错的效果。

ASL Loss

引用文献:

1 Lanchantin J, Wang T, Ordonez V, et al. General Multi-label Image Classification with TransformersC//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 16478-16488.

2 Jiawei Zhao, Ke Yan, Yifan Zhao, Xiaowei Guo, Feiyue Huang, Jia Li. Transformer-based Dual Relation Graph for Multi-label Image Recognition. International Conference on Computer Vision(ICCV), 2021.

3 Jiawei Zhao, Yifan Zhao, Jia Li.M3TR: Multi-modal Multi-label Recognition with Transformer. The 29th ACM International Conference on Multimedia (ACM MM), 2021.

4 Cheng X, Lin H, Wu X, et al. MlTr: Multi-label Classification with TransformerJ. arXiv preprint arXiv:2106.06195, 2021.

5 Liu S, Zhang L, Yang X, et al. Query2Label: A Simple Transformer Way to Multi-Label ClassificationJ. arXiv preprint arXiv:2107.10834, 2021.

6 Gao B B, Zhou H Y. Learning to Discover Multi-Class Attentional Regions for Multi-Label Image RecognitionJ. IEEE Transactions on Image Processing, 2021, 30: 5920-5932.

7 Ben-Baruch E, Ridnik T, Zamir N, et al. Asymmetric loss for multi-label classification. International Conference on Computer Vision(ICCV), 2021.

0 人点赞