一
论文题目:
Contrastive Clustering 论文摘要:
在本文中,作者提出了一种在线聚类方法,称为对比聚类(CC),它明确地执行实例级和集群级的对比学习。具体来说,对于给定的数据集,通过数据增广构造正实例对和负实例对,然后投影到特征空间中。其中,在行空间和列空间分别进行实例级和簇级的对比学习,方法是将正对相似度最大化,将负对相似度最小化。作者的关键观察是,特征矩阵的行可以被视为实例的软标签,相应地,列可以进一步被视为聚类表示。通过同时优化实例级和集群级的对比损耗,该模型以端到端方式联合学习表示和集群分配。此外,该方法可以及时计算每个个体的簇分配,即使是在数据以流形式呈现的情况下。大量的实验结果表明,CC聚类算法在6个具有挑战性的图像基准上的性能显著优于17种竞争聚类算法。特别是,CC在CIFAR-10 (CIFAR-100)数据集上达到了0.705(0.431)的NMI,与最佳基线相比,性能提高了19% (39%)
论文链接:
http://pengxi.me/wp-content/uploads/2020/12/2021AAAI-CC.pdf github链接:
https://github.com/XLearning-SCU/2021-AAAI-CC
二
论文题目:
Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition 论文摘要:
现有的场景文本识别(STR)方法通常使用语言模型来优化视觉识别(VR)模型预测的一维字符序列的联合概率,忽略字符实例内部和之间的视觉语义的二维空间上下文,使它们不能很好地推广到任意形状的场景文本。为了解决这个问题,作者在本文中首次尝试基于视觉语义进行文本推理。从技术上讲,给定 VR 模型预测的字符分割图,作者为每个实例构建一个子图,其中节点表示其中的像素,并根据它们的空间相似性在节点之间添加边。然后,这些子图通过它们的根节点顺序连接并合并成一个完整的图。基于该图,作者设计了一个用于文本推理 (GTR) 的图卷积网络,通过交叉熵损失对其进行监督。由于更好的文本推理,GTR 可以轻松插入代表性 STR 模型以提高其性能。具体来说,通过将 GTR 与基于分割的 STR 基线中的语言模型并行构建作者的模型,即 S-GTR,该模型可以通过相互学习有效地利用视觉-语言互补性。S-GTR 在六个具有挑战性的 STR 基准上设置了新的最先进技术,并很好地推广到了多语言数据集。
论文链接:
https://arxiv.org/abs/2112.12916 代码链接:
https://github.com/adeline-cs/GTR
三
论文题目:
Efficient Folded Attention for 3D Medical Image Reconstruction and Segmentation
论文摘要:
近年来,基于深度神经网络的三维医学图像重建(MIR)和分割(MIS)得到了发展,取得了很好的效果,并进一步设计了注意力机制来提高性能。然而,三维体图像的大尺寸对传统的注意力方法带来了巨大的计算挑战。在本文中,我们提出了一种折叠注意力(FA)方法来提高传统注意力方法对三维医学图像的计算效率。其主要思想是应用张量折叠和展开运算构造四个小的子亲和矩阵来近似原始亲和矩阵。通过FA的四个连续的子注意模块,特征张量中的每个元素都可以聚合所有其他元素的空间信道信息。与传统的注意方法相比,FA的精度略有提高,并且可以大大降低计算复杂度和GPU内存消耗。作者证明了此方法在三维MIR和MIS这两个具有挑战性的任务上的优越性。
论文链接:
https://ojs.aaai.org/index.php/AAAI/article/view/17298
论文代码:
https://github.com/tinymilky/FANet
四
论文题目:
SMIL: Multimodal Learning with Severely Missing Modality
论文摘要:
多模态学习中的一个常见问题是训练数据的完整性,即所有训练实例中都有完整的模态。尽管有研究致力于开发新的方法来解决测试数据的不完整性,例如,测试示例中缺少部分模态,但很少有人能够处理不完整的训练模态。如果考虑到严重缺失的情况,问题变得更具挑战性,例如,90%的训练数据可能具有不完整的模态。本文首次从灵活性(训练和测试)和效率(大多数训练数据具有不完整的模态)的角度正式研究了缺少模式的多模态学习。作者提出了一种新方法SMIL,它利用贝叶斯元学习来统一实现这两个目标。
论文链接:
https://arxiv.org/abs/2103.05677
Github链接:
https://github.com/mengmenm/SMIL