模拟人类认知：SlotSAM方法在伪装和医学图像中的应用！

基础模型在实现零样本或少样本泛化方面取得了巨大的进步，利用提示工程模拟人类智力的问题解决方法。然而，对于某些基础模型（如Segment Anything）来说，在非本分布数据上的表现仍然存在挑战，包括伪装和医学图像。微调和测试期间的一致提示策略进一步加剧了这一问题，导致性能下降。从人类认知如何处理新环境中得到启示，作者引入了一种称为 SlotSAM 的方法，它以自监督方式从编码器中重构特征，以创建以目标为中心的表示。这些表示然后被集成到基础模型中，增强其目标的感知能力，同时减少与分布相关变量的影响。SlotSAM的最大优势在于其简单性和对各种任务的适应性，使其成为一种多功能的解决方案，显著提升了基础模型的泛化能力。通过按bootstrap方式进行有限参数微调，作者的方法为将来的新环境中改进泛化铺平了道路。代码： github.com/fytang63/SlotSAM

1 Introduction

自20世纪初以来，人工智能(AI)已经发展成为一门独立的学科。AI的核心理念是通过模拟人类智能行为来创建人工智能系统，以解决现实世界中的问题。随着计算机科学的发展，AI得到了广泛的关注和研究。本文将介绍一些重要的AI理论和方法。

1.1 AI的基本概念

AI研究旨在探究智能行为的本质，并使其在计算机系统中得到实现。AI系统需要具备学习、推理和感知等功能，以实现自主行为和解决问题。AI的概念可以分为两个主要方面：智能体(agents)和智能环境(environments)。智能体是能够自主决策的实体，而智能环境是智能体所处的环境，包括其周围的物理世界和社会环境。

1.2 AI的历史发展

AI的历史可以追溯到20世纪中期。早期的AI研究主要关注基于逻辑的推理系统和知识表示。20世纪70年代，AI研究开始关注学习过程，其中最早的方法是基于规则的学习。从20世纪80年代开始，AI研究逐渐转向基于数据的学习，其中包括监督学习、无监督学习和强化学习等方法。近年来，深度学习方法的快速发展促进了AI在图像识别、自然语言处理、语音识别等领域的应用。

1.3 AI的应用场景

AI已经被广泛应用到许多领域，包括智能家居、自动驾驶、医疗诊断和自然语言处理等。在智能家居方面，AI技术可以为用户提供语音控制和自动化控制功能。在自动驾驶方面，AI技术可以实现车辆的自主 driving。在医疗诊断方面，AI技术可以辅助医生进行诊断，从而提高诊断的精度和效率。此外，AI在自然语言处理领域中的应用也日益广泛，包括语音识别、机器翻译、文本分类和情感分析等。

1.4 AI的研究趋势和发展前景

AI在近年来取得了快速的发展，并显示出巨大的潜力。未来的研究趋势主要包括：强化学习、深度学习、联邦学习和自然语言处理等方向。其中，强化学习是一种可以自动学习和适应环境的AI技术，目前已经应用到了很多领域。深度学习是当前AI领域最具挑战性的方向之一，它已经成为计算机视觉、语音识别和自然语言处理等领域的重要技术。联邦学习是一种可以在安全性和隐私保护方面的AI技术，可以实现多个设备之间的协作和学习。自然语言处理是AI领域的一项重要任务，可以通过学习和理解自然语言来实现人机互动。

综上所述，AI已经成为一门重要的学科，它在许多领域都取得了较大的进步。未来，AI技术将不断地推动社会的进步和发展。

Existing Studies and Limitations

基础模型的强大能力在零样本学习中发挥着重要作用，使其在图像分割等任务中表现出卓越的性能。以Segment Anything Model（SAM）[9]为代表，其核心目标是实现对任意图像的强密集预测性能。尽管SAM声称具有强大的零样本分割能力，但面临挑战性的下游任务（例如，医学图像，隐蔽物体，低质量图像）的分销，会削弱其优势。

提高SAM在新数据上的泛化和鲁棒性是关键。微调是一种直观的方法，以适应各种下游任务。这可能涉及定制医疗图像特定的调整器[14]或将SAM集成作为一个额外的监督分支在半监督分割框架中，以提高一致学习[24]。然而，这些技术需要训练具有细粒度标注的数据集，这在现实场景中往往难以获取。

图1：在不同下游任务的分布平移和提示平移下，SAM，WDASS，WESAM和SlotSAM的性能对比。

最近的研究已经利用Stable Diffusion增强了SA-1B[9]数据集的一部分，通过生成对抗样本，从而提高了SAM模型的性能，这需要不可持续的资源消耗。尽管这是一种模型微调的形式，但实现其在现实场景中的应用仍然具有挑战性，因为存在大量计算资源消耗。WESAM[23]集中于通过将一个冻结的源模型作为 Anchor ，以适应SAM。在弱监督下，它使用LoRA[7]微调模型，从而减小了对数据和计算资源的依赖。然而，WESAM在图像内在实例之间的对比学习中执行对比学习，这破坏了相似目标之间的语义关系，可能导致错误累积。

Our Intuition and Insights

当前基础模型在未知环境中的表现不佳，可以归因于两种类型的现实世界变化。第一种是 分布变化[10, 19]，当用于训练（源域）的数据与实际应用（目标域）中遇到的数据（下游任务）的分布不同。第二种是 提示变化[1, 25]，其中下游任务只提供粗略的弱监督，而源域中实际上可用的标签更精细。

为了解决这些挑战，作者从人类在不熟悉环境中感知事物的感知 Pipeline 中获得启示。作者的目标是抽象现实世界中的目标，并将这种能力注入任何基础模型中，以模拟人类般的智能[2]。目标中心学习[13]基于因果机制，这些机制与物理世界相匹配。通过其在场景理解中的组合推理属性，目标中心学习减少了依赖特定领域的变量，并使其能够更健壮地处理不在域的分布的数据。

将目标中心学习的核心技术Slot-Attention[13]应用于基础模型的无监督RGB像素重建，存在三个缺乏意义的原因。首先，重建图像本身的优化目标缺乏足够的信息来区分真实世界中的目标，可能导致退化，如图3所示。其次，训练基础模型通常涉及的大型图像，导致与Slot-Attention相关的不可接受资源开销。最后，将适用于基础模型的目标中心表示与它们的目标感知能力相结合并增强这些模型的目标感知能力，需要谨慎考虑。

考虑到上述因素，作者的目标是将Slot-Attention的重建目标重新定义为具有更强归纳偏置的高级特征。基础模型的图像编码器有效地提取图像中每个目标的上下文语义信息，提供对高维现实世界的统一表示，而不会受到像素颜色重建的有偏见。可以在大多数基础模型中无缝集成的高质量目标中心表示，可以被认为是目标标记。在正向过程中，目标标记可以利用标记之间的注意力机制来访问全局图像上下文、几何区域、语义信息以及 Mask 区域。这显著增强了基础模型的目标感知能力，而无需过多的微调参数。由于该整个过程是在无监督的情况下进行的，强化基础模型的泛化能力，并将其exceptional特征表示，作者将其定义为自举。作者的贡献可以总结如下：

图2：SlotSAM概述阶段1是利用高层次语义重建间隔以获得间隔。阶段2是将间隔注入基础模型，通过非线性将间隔合成目标标记并进行自我训练。整个过程对任务不可见。引入一种无任务特定性的方法以获得高质量的目标中心表示，通过在基础模型中集成目标感知能力，降低资源消耗。

2 Methodology

Preliminaries

作者的原始打算是在一般意义上为基础模型注入以物体为中心的表示感知能力。因此，基础模型的训练过程并不是作者关注的重点，所以作者区分不出基础模型或微调基础模型的优化目标，将它们的损失函数建模为。

作者选择SAM作为作者研究的代表性基础模型。SAM包括三个主要组成部分：图像编码器，提示编码器和 Mask 解码器。受到[23]的启发，作者将通用优化方法作为SlatSAM的。作者维护三个编码器网络，对于每个输入，作者通过强增强和弱增强分别得到和。然后，通过 Anchor 模型和学生模型处理，得到和，老师模型处理，得到。表示预测的 Mask 。一个通用的老师-学生自训练损失可以定义为

Object-Centric Representation Acquisition

仅重构RGB像素使得Slot-Attention在合成数据集上实现一定的有效性，但在实际世界，RGB监督信号无法充分表示物体和环境，使其容易受影响，如图3所示。受[17]启发，目标中心表示需要更良好地训练语义编码器，幸运的是，基础模型的编码器能够提供丰富的语义细节。

Slot-Attention的底层逻辑是通过自监督重建特征，将高维、语义丰富且无结构的物体特征压缩成瓶颈状的低维结构信息。因此，给定输入特征（其中和分别表示输出特征和槽的维度），并初始化一定数量的槽（其中为槽的数量，和分别表示输出特征和槽的维度），作者将它们通过线性变换进行转换（对于槽为，对于为和），并训练Slot-Attention作为，其中。 Query 、键和值向量分别为，，和。然后，经过优化次迭代使用门控循环单元[3, 5]（GRU）[2]，将槽通过槽解码器输出重构特征，最小化自监督重建损失：

是每个槽的加权和。由于每个槽都应与不同的物体相关联，每个槽应能够关注特定的空间区域。受[17]启发，作者使用一个高效的MLP作为空间广播解码器[22]。每个槽被广播到几个 patches（添加位置编码）中，对于每个slot，MLP对每个token进行处理，并经过channel division得到重建特征和激活区域。所有槽的重构特征可以通过以下方式获得：

Object-Centric Representation Injection

在SAM解码器中，预测的 Mask 通过将输出 Token 和 Mask 特征进行逐元素乘法获得。因此，如图2所示，作者创新地将存储在槽中的以目标为中心的表示设计为目标 Token 。这种设计完全兼容于原始解码器架构，并通过注意力机制，目标 Token 可以与其他 Token 交换信息。目标 Token 可以访问全局图像的上下文信息和几何细节。此外，现有的可以获得更多关于物体的判别性特征，例如位置信息和拓扑关联。

对于每个输入，存在一对对应的槽。为了避免解码器为现有 Token 建立的优化偏好，被输入MLP进行非线性组合，以获得目标 Token ，其中。在每一层注意中，目标 Token 与其他 Token 进行自注意力计算，并共享相同的前馈层，以确保模型的一致优化方向。

由于包含更多的深层语义特征和较少的详细特征，引入局部边界细节有助于避免目标的边界模糊。受[8]启发，作者从编码器的第一层注意力块中提取细节特征。经过转置卷积后，作者将具有语义特征的细节特征与目标特征相加，以获得融合的目标特征。然后，类似地，与相乘，以获得目标中心 Mask 。

自训练网络可能由于错误的预测而导致误差累积。因此，在训练的早期阶段，作者固定 Anchor 模型的参数（以为输入）。已训练好的模型被称为目标中心模型（以为输入）。作者使用简化损失函数来训练MLP和融合模块，以防止知识传递中的显著偏差：

在训练的后期阶段，作者采用迭代策略。在每个周期的最后，模型在验证集上的mIoU提高了，作者将目标中心模型的参数直接复制到 Anchor 模型。通过这种迭代过程，作者逐渐完成基础模型的迭代。

3 Experiments

定量分析：如表1和Fig. 1所示，作者在七个数据集和三种提示语义下评估了SlotSAM。令人惊讶的是，SlotSAM在很大程度上超越了现有方法。SlotSAM在自然图像上通过全监督微调缩小了差距，甚至在与点或多边形提示的监督下超过了fine-grained Mask 。在医学图像上，作者在kvasir-SEG数据集上的mIoU超过了90%，并在多重提示下保持性能，比WESAM[23]高18.16%。在最具挑战性的伪装物体数据集中，作者平均取得了超过3%的改进。

定性分析：图4比较了SlotSAM和现有最先进方法的预测。SlotSAM在较小的像素区域占有率（如马毛和脸部的结合处）提供了最详细的预测，表明其捕捉目标内语义相关性并将其可接受的边界引入目标表示的能力。SlotSAM在模糊边界区域提供更高的语义独特性，如图中所示，例如伪装目标和相似背景，避免语义混淆。这表明槽的独特性转移到基础模型中，使其能够轻松区分不同的物体。