CAM 模型可视化

模型在训练的时候，为了探明模型到底学到了什么特征，是否是我们期望的，或者模型是否学到了“作弊”的信息，这就需要对模型进行可视化，CAM是一种对模型特征可视化的技术。

对一个深层的卷积神经网络而言，通过多次卷积和池化以后，它的最后一层卷积层包含了最丰富的空间和语义信息，其中所包含的信息都是人类难以理解的，CAM可以将特征转化为可解释的信息，通过热力图的形式展示模型对数据的理解方式。

原始论文：《Learning Deep Features for Discriminative Localization》

而 CAM 的实现则需要暂时略去 GAP 层，将 7 times 7 times 512 特征直接划分为 49 times 512 的向量，分别对 49 个向量执行全连接、激活的步骤即可得到 CAM 可视化图像

实现是容易的，但这种方法为何合理，为何仅对 GAP 层可用需要进一步讨论

分类时全连接层为统一后的特征进行分类，那么 CAM 可以看做是分类头为 7 times 7 网格中每一个格子 —— 也可以说是图像中近似 1/49 的区域进行分类
因此可以得到 7 times 7个分类结果，随后将结果 resize 到原图尺寸，即可查看模型将该数据归类的依据
这种方式其实类似于分割网络的实现过程
依赖于卷积神经网络结构，需要原始图像与特征图有较强的位置相关性

Feature -> GAP -> MLP >> Logits

Feature-> MLP -> GAP >> Logits

那么此种结构的 CAM 则会难以起作用如果将 GAP 层替换为 GMP 层，则由于 GMP 层并不是线性操作

Feature -> GMP -> MLP neq Feature -> MLP -> GMP

file:///C:/Users/issuser/Downloads/20220224160336.pdf

0 人点赞