基于 Adapter 的微调已经被研究用于提高SAM在下游任务上的性能。然而,微调后的SAM与特定领域的模型之间仍然存在显著的性能差异。为了减少这个差距,作者提出了Two-Stream SAM (TS-SAM)。 一方面,受到参数高效的微调(PETT)中的侧网络的启发,作者设计了一个轻量级的卷积侧 Adapter (CSA),将SAM强大的特征融合到侧网络训练中进行全面的特征融合。 另一方面,与分割任务的特性相符,作者设计了多尺度精炼模块(MRM)和特征融合解码器(FFD),以保持详细和语义特征。在十个来自三个任务的公差数据集上的大量实验证明,TS-SAM不仅显著优于最近提出的SAM-Adapter和SSOM,而且与最先进的特定领域模型达到了具有竞争力的性能。 作者的代码:https://github.com/maoyanguo147/TS-SAM。
I Introduction
作为在超过1100万张图像上预训练的大型视觉模型,Segment-Anything Model (SAM)[1]引起了研究行人的关注。然而,最近的研究表明,SAM在下游任务上表现不佳,包括伪装物检测[2,3]、阴影检测[3]和显著物检测[4]。
对于大型模型在应用中的一个关键问题是如何将预先在大量通用数据集上训练的大型模型更好地适应不同的下游任务。为此,已经有许多研究针对参数高效的微调(PEFT)[5,6,7]。其中一些方法使用轻量级 Adapter 或提示(Prompts)来弥合通用大型模型和各种下游任务之间的差距。训练期间只更新极少数 Adapter 或提示参数,降低了存储和计算成本。最近,基于侧网络的微调方法[5,8,9]也引起了关注。这种方法为大模型增加了一个轻量级侧网络,在训练期间只微调侧网络。侧网络将大模型 Backbone 提取的特征适配到下游任务的需求。
目前,已经有若干努力使用PEFT来微调SAM。SAM-Adapter [3]将轻量级 Adapter 引入SAM编码器中,从而提高了SAM在伪装物检测和阴影检测任务上的性能。SSOM [4]使用SAM固有的低秩结构自适应微调SAM,从而提高了SAM在显著物检测任务上的性能。SAM-Adapter和SSOM都是针对将SAM应用到下游任务进行探索的开创性工作。然而,这些微调后SAM与最近的域特定模型之间仍存在显著的性能差距。
在本论文中,作者旨在解决SAM在各种下游任务上表现不佳的挑战,通过制定统一的微调策略来提高SAM在不同应用场景下的效果。受到基于侧网络微调方法的影响,作者提出了一种轻量级的两流SAM (TS-SAM)来统一微调SAM在各种下游任务上的效果。具体而言,作者设计了一个轻量级卷积侧 Adapter (CSA),以帮助SAM在各种具有挑战性的场景下运行。此外,考虑到分割任务的特征,作者提出了多尺度细化模块(MRM),以提取图像的更细粒度位置特征来进行更细致的分割。在解码过程中,作者设计了特征融合解码器(FFD),以在解码过程中集成不同尺度特征从而得到更精细的分割结果。图1展示了TS-SAM与SAM、SAM-Adapter以及该任务领域的最先进域特定模型的对比,展示了TS-SAM的优越性。此外,TS-SAM轻量级,ViT-h版本的训练参数仅为29.44M,占总模型参数数的4.4%。这意味着只需存储少量参数副本,即可为不同的下游任务供应用。
本工作的贡献如下:
- 首次将侧网络引入SAM的微调。创新地,作者提出了双流侧网络的结构,有效提取SAM编码器中的特征。
- 作者提出了多尺度细化模块(MRM)和特征融合解码器(FFD),专为分割任务设计。这些模块通过高分辨率的分层特征获得精细的目标位置信息,并在解码过程中完全集成这些信息,以实现细粒度分割结果。
- 作者在包括伪装物检测、阴影检测和显著物检测的十个公共数据集上评估了作者的TS-SAM,这些数据集来自三个任务。实验结果表明,TS-SAM显著优于近年来微调SAM用于这些下游任务的最近的研究。它的性能甚至与每个任务专门设计的最新域特定模型具有竞争力。
II Proposed Methods
Overall Architecture
图2(a) 描述了所提方法 TS-SAM 总体架构。作者使用预训练的 SAM ViT 作为主网络,并设计了一系列轻量级的模块用于下游任务微调。给定图像 I∈R^{3*H*W},通过 SAM 图像编码器提取视觉特征 F_{vit}∈R^{C*frac{H}{16}*frac{W}{16}}. 同时,SAM 图像编码器提取的特征被逐层提取并通过堆叠的卷积侧 Adapter (CSA),得到适用于下游任务的图像特征 F_{csa}∈R^{C_{1}*frac{H}{16}*frac{W}{16}}. 为了从图像编码器提取更详细的特征,作者提出多尺度细化模块 (MRM)。MRM 放大图像编码器不同层特征嵌入,形成分层的特征表示{F^{k}{mm}}{k=1}^{2}. 此外,一个轻量级 gating 单元持续将 SAM 图像编码器的低层特征合并到高层,收集更丰富的图像细节特征。
在解码过程中,作者没有使用 SAM Mask 解码器。原因是 SAM 解码器需要提示如点或框来实现良好效果,而单向前传播通过一个解码过程难以分割多个目标。因此,作者设计轻量级特征融合解码器 (FFD),将分层特征表示{F^{k}{mm}}{k=1}^{2}注入从 CSA 获得的特征 F_{csa} 中。这增强了特征表示,得到细化的分割 Mask 。在 FFD 的上采样过程中,采用两阶段注入方法通过分层特征表示突出关键信息。
最后,为了降低训练成本,TS-SAM 图像编码器在训练过程中保持不变。训练卷积侧 Adapter 、多尺度细化模块和特征融合解码器,三者均为轻量级。
Convolutional Side Adapter
本文节对卷积侧 Adapter (CSA)进行了详细介绍。受到PEFT领域 Adapter 技术的启发,作者对原始 Adapter 进行了简单的修改。作者认为CSA可以从SAM图像编码器中有效提取特征,并将这些特征与下游任务的实际数据进行链接。如图2(b)所示,不同于原始 Adapter ,CSA包括两个 卷积模块。第一个 卷积将压缩特征扩展到SAM图像编码器的特征维度,并与SAM图像编码器的输出特征向量进行合并。第二个 卷积将合并后的特征压缩回输入特征维度,作为下一层CSA的输入。给定第(i-1)个CSA模块的输出特征和第(j-1)层SAM图像编码器的输出特征,第i个CSA模块的操作可以表示为:
其中,代表了一个 卷积模块,包括一个 卷积,批标准化和激活操作。是SAM图像编码器第j层的输入,是第i个CSA的输入。CSA 轻量级,保持了 Adapter 的简单性。
Multi-Scale Refine Module
在分割任务中,为了获得更精确的分割结果,一个模型需要能够有效地描述详细特征,如物体边缘。然而,在SAM图像编码器中的patch嵌入阶段对图像进行16x下采样可能会导致难以提取目标位置信息。因此,作者提出了多尺度精炼模块(MRM)来获取更高分辨率的特征,从而具有更多细节。
图2(c)说明了MRM的结构。第i层的MRM层接收来自SAM图像编码器(第j层)的输出特征和来自MRM(第i-1层)的分层特征{F^{k}{mm{i}}}_{k=1}^{2}。第i层MRM层输出一组特征,其分辨率为和。作者首先通过一个1x1卷积模块压缩的特征维度,得到。然后,将通过一个解卷积模块处理,以得到一个更高分辨率的层次特征表示。上述过程可以表示如下:
其中,表示解卷积模块,在2x和4x上对进行上采样,从而在两个不同的分辨率下获得高分辨率特征。此外,获得的这些高分辨率特征需要与MRM上一层输出的层次特征相融合。为了控制特征融合的幅度,作者采用了文献[10]中提出的轻量级注意力单元来控制不同分辨率下的特征融合。这个单元通过线性层和激活函数计算像素级权重,从而精细控制特征融合的范围。关注单元的计算过程可以表示如下:
其中表示线性层,表示元素乘法。最后,将两个特征简单相加以实现特征融合:
Feature Fusion Decoder
为了确保CSAl(卷积结构化特征提取)和MRM(多分辨率特征重建)分支特征的充分融合,作者提出了一种轻量级特征融合解码器(FFD)。FFD的目的是在解码过程中将层次特征表示注入到CSAl分支获得的特征中。
FFD的结构如图3 所示。首先,CSAl分支的特征Fcsa通过一个11卷积得到Fcsa。对于层次特征表示{Fmmrk},其分辨率分别为H/8W/8和H/4*W/4,作者旨在突出其关键特征,因此采用降采样操作来下采样层次特征表示,强调其关键部分。这个过程可以表示如下:( 6)。
(7)。其中,GAP(全局平均池化)和GMP(全局最大池化)分别具有 22 Kernel 。对于不同尺度的特征,作者采用两级注入方法。首先,通过降采样操作得到的关键特征F_{key,mmr}被注入到Fcsa中,然后完整的H级特征F_{mmr}注入到Fcsa中。
其中, Equation (8) 和 Equation (10) 分别代表注入过程的第一和第二阶段,其中表示在通道维度上进行 ConCat ,并且表示2x上采样。
遵循这种两级注入后,子特征被完全集成到CSA分支的特征中,从而产生增强的特征表示。这使得解码过程能够实现更精细的分割结果。
III Experiment
Datasets and Implementation
本节试验了SAM-Adapter [3] 和 SSOM [4] 中使用的三个具有挑战性的下游任务中的十个数据集。
- COD: 使用了四个常用的数据集:CAMO [23],COD10K [24],CHAMELEON [25],和 NC4K [26] 来测试TS-SAM的性能。根据文献[3]中的训练协议,集合[23]和[24]的训练样本被结合用于模型训练,而每个数据集的测试样本被用于测试。
- 阴影检测:ISTD [27]数据集用于测试TS-SAM的性能。
- SOD:作者选择了五个数据集:DUTS [28],ECSSD [29],OMRON [30],HKU-IS [31],和 PASCAL-S [32]。作者根据文献[33]中的训练协议,用DUTS训练集对剩余数据集进行训练和测试。
实现细节: 所提出的解决方案是在PyTorch中实现的,所有的训练都使用了4个NVIDIA A40 GPU。作者训练了两个版本的模型:TS-SAM_B和TS-SAM_H。TS-SAM_B使用了SAM图像编码器的ViT-B版本,包括14层CSA和13层MRM。TS-SAM_H使用了SAM图像编码器的ViT-H版本,包括34层CSA和13层MRM。所有实验都使用Adam优化算法,初始学习率设置为0.0008,并采用了余弦衰减策略。总批处理大小为8。除Resize之外,没有使用任何数据增强方法。对于COD和SOD任务,BCE损失和IOU损失被使用。训练进行了80个周期。对于阴影检测任务,使用平衡BCE损失。训练进行了100个周期。具体来说,在阴影检测任务上的实验中,作者将图像的高频分量作为输入,设置同文献[3]中的设置。
Results
Mask 目标检测(Camouflaged Object Detection) 表1展示了TS-SAM与SAM、SAM-Adapter以及SOTA领域特定模型在四个常用的COD数据集上的结果对比。仅微调4.4%的参数,并无需为该任务专门设计模块,作者的模型在四个数据集上均取得了竞争力的性能。在最大的两个数据集,COD10K和NC4K上,TS-SAM在大多数指标上取得了最佳结果。对于COD10K数据集,作者的模型比第二名SARNet在和指标上分别提升了3.3%和4.4%,同时将降低了19.0%。在NC4K数据集上,作者的模型在,和指标上达到了SOTA性能,并在指标上比SARNet提高了1.8%。这些结果展示了作者模型出色的鲁棒泛化能力。
此外,对于SAM-Adapter [3],通过引入 Adapter ,它在原始SAM的基础上显著提高了对COD任务的影响。而对于TS-SAM,通过将与SAM相同特征图的卷积侧 Adapter 集成,并引入多尺度细化模块,它在SAM-Adapter [3]报告的三个数据集的各指标上取得了显著的提升。
图1展示了在一些复杂样本上的定性结果,展示了复杂性的各种方面。例如,存在由极其相似的环境和遮挡物(列1、3和5)引起的影响(列1、3和5),微小的目标(列4)和复杂的纹理特征(列2)。这些结果展示了作者提出的TS-SAM的优越性,包括对整体特征的良好掌握,对详细特征的深入探索以及有效区分干扰信息。
阴影检测(Shadow detection) 表2展示了在ISTD数据集上的结果。观察到SAM-Adapter,通过引入轻量级 Adapter ,显著提高了SAM在阴影检测任务上的性能。与SAM-Adapter相比,TS-SAM有显著的性能提升。在无需针对阴影检测任务进行特殊设计的条件下,TS-SAM实现了与最佳领域特定模型接近的性能。
显著目标检测( Salient Object Detection) 表3展示了TS-SAM与SAM,SSOM [4]以及SOTA领域特定模型在五个常用SOD数据集上的结果对比。
与类似基于SAM的SSOM方法相比,TS-SAM在指标上显著优于SSOM在所有五个数据集上。这表明作者提出的微调方法要优于SSOM提出的基于AdaLora-的微调方案。与先进的领域特定方法相比,TS-SAM仅通过微调少量参数就取得了竞争力。在、和指标上,TS-SAM在ECSSD、OMRON和PASCAL-S数据集上达到了SOTA性能,同时在DUTS和HKU-IS数据集上也有良好的表现。在指标上,TS-SAM的性能相对较弱,这将是未来改进的方向。
Ablation Study
作者提出的模块在四种伪装目标检测数据集上研究了其有效性:CHAMELEON、CAMO、COD10K和NC4K。TS-SAM中使用的模块分别实现了SAM Baseline 模型的个体实现,结果如表4所示。从结果中可以看出,当仅优化SAM Baseline 模型的解码器时, Baseline 模型性能不佳。首先,作者验证了单独模块的有效性,包括仅引入CSA模块和同时引入MRM和FFD模块的场景。发现在两个设置中,与 Baseline 模型相比,都有显著的性能提升,而可训练参数的数量只增加了很少(CSA模块为549万,FFD和MRM之和为235万)。结果表明,作者提出的模块可以有效地从SAM图像编码器中提取视觉信息,并将其适应到下游任务。其次,结合所有三个提出的模块的模型在四个数据集上的所有指标上实现了最佳性能。结果表明,作者提出的模块可以以互补的方式工作。专门为分割任务设计的MRM和FFD可以帮助CSA实现更好的性能。
IV Conclusion
在本文中,作者关注于利用大规模数据集预训练的大视觉模型SAM进行下游任务的精准微调。为了充分利用SAM在大规模数据集上的预训练效果,作者提出了TS-SAM。利用轻量级的卷积侧 Adapter (CSA),作者首次将侧网络的概念引入SAM的微调过程中。
此外,结合分割任务的特性,作者设计了多尺度精炼模块(MRM)和特征融合解码器(FFD)以从高分辨率图像中提取详细特征。
在三个下游任务上的实验表明,作者的模型在SAM的精准微调方面超过了现有的高效微调方法,并且能够与专门为每个任务设计的领域特定模型(SOTA)达到竞争力。
参考
[1].TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks.