欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
注意力机制是当下计算机视觉和自然语言处理中非常重要的内容,是模型设计的基础和核心方向,包含的内容非常多,本次我们给新手推荐计算机视觉注意力机制入门必须阅读的论文。
作者&编辑 | 言有三
1 什么是注意力机制
Itti and Koch model是最早研究注意力机制问题的模型之一,虽然不属于深度学习与神经网络领域,但对于想要追溯注意力机制的早期研究,了解显著目标检测方向的朋友来说,仍然是值得一读的论文。
文章引用量:5000
推荐指数:✦✦✦✦✦
[1] Itti L, Koch C. Computational modelling of visual attention[J]. Nature reviews neuroscience, 2001, 2(3): 194-203.
2 空间注意力机制
Spatial Transformer Networks是极为经典的基于空间注意力机制的模型,它通过对输入数据中有效目标位置的学习,实现预处理变换,降低模型的学习难度,该思想被后续很多领域借鉴,广泛被用于进行空间位置对齐等用途,是必须重点阅读的文章。
文章引用量:6000
推荐指数:✦✦✦✦✦
[2] Jaderberg, Max, et al. “Spatial Transformer Networks.” NIPS’15 Proceedings of the 28th International Conference on Neural Information Processing Systems, vol. 28, 2015, pp. 2017–2025.
3 通道注意力机制
SENet及其后续SKNet是最经典也最为简单,理解起来最直观的通道注意力机制模型,用于对不同的特征进行加强和抑制,从而实现特征的选择,是必须重点阅读的文章。
文章引用量:16000
推荐指数:✦✦✦✦✦
[3] Hu, Jie, et al. “Squeeze-and-Excitation Networks.” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 7132–7141.
[4] Li, Xiang, et al. “Selective Kernel Networks.” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 510–519.
4 自注意力机制
前面介绍的方法都需要通过额外的模块来实现注意力机制的学习,实际上基于特征本身也可以实现注意力机制,即自注意力模型,比较典型的代表是双线性模型(只有Bilinear CNN models)。
文章引用量:1800
推荐指数:✦✦✦✦✦
[5] Lin T Y, RoyChowdhury A, Maji S. Bilinear CNN models for fine-grained visual recognition[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1449-1457.
5 混合注意力机制
将空间注意力与通道注意力机制进行混合是一种非常直观的思想,它不需要过多创新的设计,却可以在经过串行或者并行的模块组合后获得性能超越,以CBAM/BAM为典型代表。
文章引用量:6000
推荐指数:✦✦✦✦✦
[6] Woo, Sanghyun, et al. “CBAM: Convolutional Block Attention Module.” Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 3–19.
[7] Park J, Woo S, Lee J Y, et al. Bam: Bottleneck attention module[J]. arXiv preprint arXiv:1807.06514, 2018.
6 如何进行实战
为了帮助大家掌握一些模型设计的重要方法,我们推出了相关的专栏课程《深度学习之模型设计:理论实践篇》,其中就有属于注意力机制的内容,感兴趣可以进一步阅读:
【视频课】AI必学,超20小时,4大模块,循序渐进地搞懂CNN模型设计与简单部署!
总结
本次我们简单介绍了注意力机制一些重要内容,空间注意力机制,通道注意力机制,自注意力机制,混合注意力机制,值得所有从业者掌握。