公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
Column of Computer Vision Institute
大数据预训练的驱动下,Segment Anything Model(SAM)已被证明是一个强大的可提示框架,彻底改变了分割领域。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制SAM的探索不足,例如,在大量图像中自动分割你的宠物狗。
01
前景概要
在今天分享中,我们为SAM介绍了一种无需训练的个性化方法,称为PerSAM。给定仅一个拍摄数据,即具有参考掩模的单个图像,我们首先在新图像中获得目标概念的正负位置。然后,在目标视觉语义的帮助下,我们提出两个技术:目标引导注意力和目标语义提示,为SAM提供个性化目标分割的能力。通过这种方式,我们可以有效地自定义通用SAM以供私人使用,而无需任何培训。为了进一步缓解分割尺度的模糊性,我们提出了一种有效的一次性微调变体PerSAM-F。冻结整个SAM,我们引入了一种尺度感知微调来聚合多尺度掩码,它只在10秒内调整2个参数,以提高性能。
为了证明我们的有效性,我们构建了一个新的数据集PerSeg,用于评估个性化目标分割,并在各种一次性图像和视频分割基准上测试了我们的方法。此外,我们利用PerSAM来改进DreamBooth的个性化文本到图像合成。通过减少训练集背景的干扰,我们的方法展示了更好的目标外观生成和对输入文本提示的更高保真度。
02
背景和动机
SAM固有地失去了分割特定视觉概念的能力。想象一下,打算把你可爱的宠物狗放在厚厚的相册里,或者从你卧室的照片中找到丢失的时钟。利用普通SAM将是高度劳动密集型和耗时的。对于每个图像,必须在复杂的上下文中精确地找到目标对象,然后通过适当的分割提示激活SAM。考虑到这一点,我们会问:我们能否个性化SAM,以简单高效的方式自动分割用户指定的视觉概念?
为此,我们 研究出了PerSAM,这是一种针对分割任意模型的无需训练的个性化方法。如上图所示,我们的方法只使用一次拍摄数据,即用户提供的参考图像和个人概念的粗略掩码,就可以有效地定制SAM。具体来说,我们首先通过特征相似性获得测试图像中目标对象的位置置信度图,该图考虑了每个前景像素的外观。根据置信度得分,选择两个点作为正负位置先验,最后将其编码为提示标记,并输入SAM的解码器进行分割。在解码器中,我们建议注入目标对象的视觉语义,用两种技术释放SAM的个性化分割能力:
- 目标引导注意力。我们通过位置置信度图将每个标记引导到SAM解码器中的图像交叉关注层。这明确地迫使提示标记主要集中在用于密集特征聚合的前景目标区域。
- 目标语义提示。为了明确地为SAM提供高级目标语义,我们将原始提示标记与目标对象的嵌入相融合,这为低级位置提示提供了用于个性化分割的额外视觉提示。
通过上述设计,再加上级联后细化,PerSAM在各种姿势或场景中对独特的主题表现出良好的个性化分割性能。值得注意的是,我们的方法可以很好地处理需要在多个相似目标中分割一个目标、同时分割同一图像中的几个相同对象或沿着视频跟踪不同对象的场景。然而,如下图所示,偶尔可能会出现故障情况,其中对象包括视觉上不同的子部分或要分割的层次结构,例如泰迪熊顶部的帽子或机器人玩具的头部。这种模糊性给PerSAM在确定作为输出的掩码的适当规模方面带来了挑战,因为SAM可以将局部部分和全局形状视为有效掩码。
03
新框架设计详解
此外,我们观察到,我们的方法还可以帮助DreamBooth更好地微调用于个性化文本到图像生成的扩散模型,如下图所示。
给定一些包含特定视觉概念的图像,例如你的宠物猫或背包,DreamBooth学会将这些图像转换为单词嵌入空间中的标识符[V],然而,它可以同时包括背景信息,例如楼梯或森林。这将覆盖新提示的背景,并干扰目标外观的生成。因此,我们利用PerSAM来分割训练图像中的目标对象,并且只通过前景区域来监督DreamBooth,从而实现更高质量的文本到图像合成。
Location Confidence Map
根据用户提供的图像IR和掩模MR,PerSAM首先获得置信度图,该置信度图指示目标对象在新测试图像I中的位置。如下图所示,我们应用图像编码器来提取IR和I的视觉特征。编码器可以是SAM的冻结骨干或其他预训练的视觉模型,为此,我们默认采用SAM的图像编码器EncI。
Target-guided Attention
尽管已经获得了正负点提示,但我们进一步提出了对SAM解码器中的交叉注意力操作的更明确的语义指导,该操作将特征聚合集中在前景目标区域内。如下图所示,总体置信度图S可以清楚地指示测试图像中目标视觉概念的粗略区域(颜色越热,分数越高)。基于这样的性质,我们利用S将每个令牌中的注意力映射引导到解码器的图像交叉注意力层。
Target-semantic Prompting.
普通SAM只接收具有低级位置信息的提示,例如点或框的坐标。为了给SAM的解码器提供更多的高级提示,我们利用目标概念的视觉特征作为额外的高级语义提示。我们首先通过不同局部特征之间的平均池化来获得参考图像中对象的全局嵌入TR:
然后,我们在将TR馈送到解码器块之前,将TR明智地添加到SAM预测的最终分割掩码中测试图像的所有输入tokens,如下图所示:
04
实验及可视化效果
在下表中,我们观察到微调后的PerSAM-F获得了最佳结果,它有效地将PerSAM总体mIoU和bIoU提高了 2.7%和 5.9%。我们在下图中展示了PerSAM-F改进的更多可视化效果。
测试结果充分说明了我们对时间视频数据和复杂场景的强大泛化能力,这些场景包含多个相似或遮挡的对象,如下图所示。
Visualization of PerSAM-guided DreamBooth
© THE END