麻省理工再出新作 ,不确定性感知下的物体实例分割 !

2024-08-27 20:16:15 浏览数 (2)

作者提出了“不确定性感知的物体实例分割”(Uncos)并展示了其对实体交互分割的有效性。 为了解决机器人在感知中面临的不确定性,作者提出了一种生成物体分割假设分布的方法。 通过多次 Query 大型预训练模型,作者可以获得一组具有置信度估计的区域因素分割假设。这一过程可以生成在未见过的物体分割问题上实现最先进性能的分割结果。 输出也可以作为输入到由信念驱动的过程,用于选择机器人动作来扰动场景以降低歧义。 作者在实际机器人实验中证明了这种方法的有效性。 网站:https://sites.google.com/view/embodied-uncertain-seg。

I Introduction

作者的目标是构建可以在包含先前未知物体的环境中运行的长期视野操作系统。对这些系统的一个关键步骤是,将RGB或RGB-d图像分割成待操作的目标候选体。这一步骤通常被称为“未知目标实例分割”(UOIS),已经出现了许多现有的深度学习模型来实现这一任务[1,2,3]。然而,这些模型的输出不可避免地不完善,因为存在模型的局限性,例如数据或计算能力的限制,或者存在图像的挑战,例如遮挡或照明,或者存在根本的歧义,例如一个玩具积木堆。在“实体化”操作环境中,有机器人可用,作者可以与场景互动,以获取额外的信息,例如推动某些目标并跟踪它们如何移动。此外,随着“提示性”分割模型的出现[4],作者也可以与模型互动,以获取额外的信息,例如从不同的提示中获取多个分割。在本文中,作者将这两种方法都用于改进分割结果:对分割模型的多次提示和对物体的主动机器人互动。特别地,作者通过对分割模型进行多次提示构建出分割的不确定性描述,并使用这个表示来指导物理交互。

图像分割,在最一般的形式下,根本上是受约束的。瓶盖是瓶子的一个部分,还是一个独立的物体?衣服是否是人体的一个部分?在这篇文章中,作者限制自己只考虑离散刚性物体的分割,这些问题答案通常是:如果物质块总是以刚性的方式一起移动,那么它们就是一个物体,否则就不是。通常,从杂乱场景的图像中找不到这样的真实分割,一般来说,为了实现特定的机器人操作目标,可能不需要找到它。

作者定义作者的任务为“不确定性敏感的物体实例分割”。给定一张图像,问题的解决方法将场景分割成离散不相交的区域,并为每个区域提供具有足够低的不确定性且具有多个解释的单一解释。这与典型实例分割任务不同,目标是提供给场景一个单一的分割 Mask 。通过明确描述区域不确定性,作者希望实现对下游任务的改进,例如改善收集额外信息以消除歧义的选择。

在这种方法中,一个关键问题是如何描述提出的分割的不确定性。作者开发了一种不确定性估计和假设生成方法,该方法基于对大型预训练的“提示性”模型[4,5]的多次 Query 。在图像的区域内,作者发出随机的点提示,并使用返回 Mask 的一致性作为不确定性的指示。

得到物体假设后,使用机器人进行有针对性的探索,以减小不确定性。作者使用最大不确定性减少驱动的动作选择启发式,轻推候选物体。建立一个状态估计器跟踪并更新物体假设。从得到的信念状态中可以计算出最可能分割假设,作者证明状态估计导致更好的动作选择,最终导致更好的最大可能性分割假设。

这项工作的关键贡献是:

  • UnCOS:一种有active提示策略,用于将提示性自上而下和自下而上的预训练目标实例分割方法结合在一起,以获得图像分段假设分布;
  • EOS:一种方法,将分割分布转换为世界模型分布,并使用该分布选择机器人扰动动作以消除歧义。作者首先展示了UnCOS图像分割策略的有效性,然后将其作为一个单独的方法进行,显示其最大可能性假设比最新的UOIS方法更好。此外,作者显示UnCOS产生的假设分布可以用于EOS生成针对场景的目标物理互动,以收集信息比不太有用的方法更有效地进行。

II Related work

本文与先前的无见过物实例分割(UOIS)工作有关,使用大型预训练模型进行图像分割,估计分割的不确定性,以及具有身体感知的图像分割。

无见过物实例分割(UOIS) UOIS在机器人领域的目标是为了找到前景中物体的实例分割,通常为桌面场景。最近的工作利用了在模拟中生成的数据集,其中包含大量物体[1,2,3,6]。与常见的全视觉、语义分割和实例分割场景的不同之处在于,深度图像被假定为可用。这些方法基于强度线索和几何线索做出预测。作者最终的目标是获得物体分割,但关键是作者的方法估计了逐个分割的概率分布,然后通过与场景互动改进该分布,最后确定特定分割假设。

分割 Anything 模型(SAM) 最近的大型视觉模型在各种任务上取得了令人印象深刻的结果。SAM是一种图像分割模型,已在1100 万图像的数据集上进行了预训练。它可以通过点 Query 或箱体 Query 产生分割 Mask 。由于具有灵活的提示接口和强大的性能,它已用于改进不同任务,例如3D场景分割[7,8]和跟踪[9,10],也与其他大型预训练模型如groundingDINO[11]结合以分割具有文本提示的目标[12]。在作者的工作中,作者利用提示接口进行不确定性估计。

分割不确定性估计 许多分割不确定性估计方法产生了像素级不确定性的热力图[3,13,14]。然而,作者关心的不确定性是目标级不确定性,而不是像素 Level 不确定性。一些以前的方法产生了相对较小的图像块的概率分布[15,16]。UOIS的现代常见失败模式是目标的过度和不足分割,因此通过将不确定性表示为逐个分割 Mask 分组的方式更为适合作者的设置。

具有实体的分割 用机器人动作来补充和增强视觉感知在机器人技术和各种交互式感知中有着悠久的历史。Bohg等人[17]的调查回顾了这一领域的研究成果,其中包括交互式/具有实体的分割。

交互式分割的常见策略是从场景的过度分割开始,并根据运动的一致性识别分组。选择动作,可以通过贪心策略选择。在某些情况下,显式目标是“突出”(isolate)物体[20]。另一方面,Pajarinen等人将动作选择问题表述为POMDP,并试图选择能最大化长期奖励的动作。Qian等人[21]最近的工作寻求基于少量机器人交互的改进分割。动作根据从MSMFormer[3]的像素级不确定性图启发式地选择,与作者利用来自提示大型预训练模型的不确定性表示的方法不同。另一项工作旨在使用机器人交互收集数据来自我监督分割模型的训练[22,23,24]。与作者的目标相反的是,只消歧当前场景。

III Problem setting

作者的最终目标是获得可能非常混乱的桌面场景的准确解释,这形式为一个对应场景中单个物体的部分点云集合。作者假设场景中的所有物体都是刚性的,并且不解决完全遮挡物体的显露问题。

场景分割是一个本质上具有歧义的问题:既可能很难,也可能是不必要的获取一个单一的、完全正确的解释。因此,作者专注于构建一个分割假设的分布,并在给出新观察到一些物体移动的情况下,随着时间的推移更新这个分布。

机器人实体包括一个能够观察整个场景并捕获注册RGB和深度图像的摄像头,以及一个能够到达观察到物体并通过戳物体对它们进行小扰动的机器人手臂。作者的目标是使用最小的物品干扰产生良好的场景解释。

假设机器人能够对场景中的物体进行精确、局部接触。推力行动由选择初始端效应目标位置、方向和运动距离确定。在执行每种动作后,机器人会收缩到使场景不屏蔽的位置。

IV Embodied Uncertainty-Aware Segmentation

提出了一种名为“嵌入不确定性感知目标分割”(EOS)的方法,图1给出了该方法的具体实现。EOS由三个主要组件构成:一个“不确定性感知目标分割模型”(UnCOS),一个信念状态估计器,以及一个动作规划器,它们与场景以闭环交互的方式协同工作。初始的RGB-D图像使用UnCOS处理,该模型基于可提示的图像分割模型构建了分割假设集。这个分割假设集用于初始化一个“信念状态”,该状态表示对3D场景结构的假设集。根据信念状态,选择并执行一个动作,捕捉新的RGB-D观察并用其更新信念。最后,作者生成一组针对最可能假设的图像 Mask 。

Uncertainty-aware Object Segmentation Model

作者提出的 不确定意识物体分割模型 (UnCOS),为将多个预训练的2D RGB图像分割方法与从深度图像生成的3D点云进行一些操作结合起来,生成一组可能的分割假设,并附带置信度估计,提供了一种全新的策略。

UnCOS 从两个方面解决问题:

  • 一种“自下而上”的方法,当 Query 时,可以返回覆盖图像中感兴趣区域的 Mask 。这样可以确保图像中的每个区域都能得到考虑。这种方法需要有 高召回率,因此多次 Query 该方法很可能返回大多数正确的实例 Mask 。作者称这种方法为 BUHighRecSeg。作者对使用密集的 Query 点,形成全图像的初始高召回 Mask 。作者称其为 BUSeed。
  • 一种“自上而下”的方法,返回一组具有高精确度的图像 Mask 。这些 Mask 很可能对应于正确的分割,但它们可能不包含所有正确的分割。作者称这种方法为 TDHighPrecSeg。

通用策略可以使用满足这些要求的任何方法。在作者的实现中,作者使用了 分割任何事物模型 (sam) [4]。对于图像,它可以使用像素位置或边界框进行 Query 。

作者使用 像素启发式分割 作为作者的 BUHighRecSeg 模块和其密集发行的版本 (自动 Mask 生成) 作为作者的 BUSeed 模块。作者的实验证实这两种确实具有非常高的召回率。

作者使用 GroundedSAM [11, 12],它使用具有自然语言提示的 _边界框启发式分割_,作为作者的 TDHighPrecSeg 模块。GroundedSAM 将文本作为输入,使用 GroundingDINO [11] 为文本生成检测边界框,然后提示 sam 为每个检测框生成二进制 Mask 。作者使用固定提示 "A rigid object." Query GroundedSAM。作者的实验证实这种方法确实具有非常高的精确度。

算法1:UnCOS

算法1的Alg. 1描述了UnCOS的整体操作。主要启示是划分不确定性与图像区域高度相关。在某些图像区域,解释具有唯一性,只有一个合理假设。然而,对于其他区域,比如包含桌子上堆叠物体的区域, Query 模型可能会返回多种过分割和欠分割。但是这种歧义通常局限于局部区域,一般不会与另一堆物体解释产生交互。

这个启示使作者通过对图像区域进行划分并生成每个区域的假设分布来对分割分布进行因子分解。然后,通过每个区域假设分布的笛卡尔积可以构造整个图像的分割假设分布(图1)。如果场景以无法利用局部性质的方式构建,那么UnCOS会将整个场景视为一个区域。

算法2:分区

3D Belief representation

Action selection

Belief update

V Evaluation

作者对两个主要问题感兴趣:

  • 将不确定性的物体分割模型应用于单个输入RGB-D图像并生成其最可能假设作为输出结果,是否会导致与其他SOTA方法相当的图像分割结果?
  • 通过不确定性感知的物体分割模型初始化信念状态,然后通过具身不确定性感知的物体分割模型更新,这对于选择与世界的交互动作提供良好的基础吗?

作者将在以下部分回答这两个问题。

Segmentation from single images

作者将UncOS与几种方法进行比较。前两个是最先进的全景图像分割方法,它们直接从RGB-D图像预测一组目标分割 Mask :(1) UOIS-Net-3D [1] (2) UCN [2]。下一组方法用sam以某种方式使用,但是不像UncOS那样进行重复 Query 。

  • sam: 返回sam对sam自动生成 Mask 的输出,而不进行进一步处理。
  • sam-cluster: 根据观察到sam倾向于过度分割目标,作者构建了如算法2中描述的连通图,并将每个连接集群视为分割目标。
  • sam-per-pixel-ML: 将同时包含最高sam-{}conf. Mask 的多个 Mask 中的最高值分配给像素,{}conf. 是指sam输出中每个预测 Mask 的预测置信度。
  • GroundedSAM: GroundedSAM中固定提示符“一个刚体物体”。

作者考虑作者的方法UncOS以及几个ablation:

  • BootstrapScore: 返回UncOS具有最高平均sam-conf.值的假设,而不是bootstrap置信度分数。
  • TDHighPrecSeg: 没有使用GroundedSAM的TDHighPrecSeg Mask 。
  • D: 进一步删除退化区域的深度过滤。
  • UncOS UCN: 将UCN [2]的 Mask 作为额外的TDHighPrecSeg Mask 添加到假设生成过程中。

具有最高的召回率(下划线)。这些结果确认了它们作为TDHighPrecSeg和BUHighRecSeg方法的使用资格。此外,作者还发现将UCN的 Mask 添加到假设生成过程中会稍微降低性能,这可能是因为UCN的 Mask 精度比GroundedSAM中的 Mask 要低。

存在实际最佳假设的得分和UncOS认为最佳的之间的差距。这些值和UncOS的值之间的差距揭示了至少在某些情况下,由于图像歧义,还有尚未识别为正确的好假设。

Improving segmentation through interaction

当UncOS产生了关于可能分割的分布后,作者将其用于选择与场景的物理交互以减少任何剩余的不确定性。作者在弗兰克埃米卡机器人手臂上使用作者实现的采用信念初始的具身不确定知觉物体分割(EOS)系统。要将物体精确地推动,弗兰克抓起一个棍子,如图1所示。作者使用双向RRT进行运动规划,并使用观察得到的点云检查手臂和物体之间的碰撞。来自夹爪上的RealSense D435i相机的RGB和深度图像用于捕获。作者希望通过实际实验回答以下两个问题:

  1. 不确定性是否提高了具有身分的分割效率;2. 构建局部记忆并执行信念更新是否有助于图像分割。

作者的主要方法EOS使用基于从UncOS结果中初始的信念的行动选择方法,并使用来自IV-D节的更新方法。为了评估,在每个时间步,作者将与人类标记的真实 Mask 相比最高的评分假设与三维信念状态。作者与两个剪裁方法进行了比较:

  • 随机:保留EOS中的信念状态初始化和更新方法,但代替最不确定的区域的选择行动,作者随机选择一个假定的物体进行交互,随机选择一个推动方向。与EOS相比,这种方法之间的性能差异可以归因于信念表示中不确定性的使用以集中行动选择。
  • finalFrame:作者使用随机的动作,如上所述,但是而不是维持一个信念状态并每行动一次更新它,作者简单地取每个互动步骤之后物体的配置图像,将其应用UncOS处理,并从UncOS结果中返回最可能假设。与随机相比,这种方法之间的性能差异可以归因于信念更新的机制中观察信息的时间汇总。如果这种方法从第一个到最后一个帧的分割质量都有所提高,可以归因于物理隔离造成的随机运动使物体彼此分离,从而使分割问题更容易。

作者设置了20个场景,包含74种多样化的物体,如图2所示。作者在每个场景上将EOS和随机方法运行一遍(finalFrame方法使用与随机相同的图像,但生成的预测分割不同)。尽管两个运行的场景复制并不完全相同,作者将它们设置为尽可能相似的,如开始时所做的那样比较初始图片。机器人在每个场景中执行3个动作。

结果 在机器人互动K步后,表2列出了像素化F分数()和物体大小归一化的F分数()。作者的行动选择策略和随机策略与finalFrame Baseline 表现一致。随着互动步数的增加,具有记忆的方法获得了逐渐改善的分割质量,并高于finalFrame。这说明具有信念更新的具身分割程序可以帮助机器人解决场景中的歧义并提高分割质量。为了说明信念更新以及行动选择在具身分割中的指导作用,作者在图3中还包括了EOS的定性结果。

将作者的方法与随机戳击 Baseline 进行比较,相同数量的互动步骤下,分割质量(对于两个指标)的提高更大。这表明具有UncOS和信念更新,在具身分割中可以对行动选择提供强大指导,具有更大的受益。同时,有趣的是,finalFrame方法并没有随着物体的移动而改进,这意味着信念跟踪在整体系统性能中发挥着重要作用,并且物体的物理隔离并不是导致改进的唯一原因。

在UncOS产生关于可能分割的分布之后,作者利用它选择与场景的物理交互以减少任何剩余的不确定性。作者在Franka Emika机器人臂上使用实现了的实体不确定感知的物体分割(EOS)系统进行评估。为了精确地推动物体,Franka握住一根棍子,如图1所示。作者使用双向RRT进行运动规划,并使用观察得到的点云检查手臂和物体之间的碰撞。来自夹爪上的RealSense D435i相机的RGB和深度图像用于捕获。在作者通过实际实验回答以下两个问题:1)不确定性是否提高了具有身分的分割效率;2)构建局部记忆并执行信念更新是否有助于图像分割。

作者的主要方法EOS使用基于从UncOS结果中初始的信念的行动选择方法,并使用来自IV-D节的更新方法。为了评估,在每个时间步,作者将与人类标记的真实 Mask 相比最高的评分假设与三维信念状态。作者与两个剪裁方法进行了比较:

  • 随机:保留EOS中的信念状态初始化和更新方法,但代替最不确定的区域的选择行动,作者随机选择一个假定的物体进行交互,随机选择一个推动方向。与EOS相比,这种方法之间的性能差异可以归因于信念表示中不确定性的使用以集中行动选择。
  • finalFrame:作者使用随机的动作,如上所述,但是而不是维持一个信念状态并每行动一次更新它,作者简单地取每个互动步骤之后物体的配置图像,将其应用UncOS处理,并从UncOS结果中返回最可能假设。与随机相比,这种方法之间的性能差异可以归因于信念更新的机制中观察信息的时间汇总。如果这种方法从第一个到最后一个帧的分割质量都有所提高,可以归因于物理隔离造成的随机运动使物体彼此分离,从而使分割问题更容易。

作者设置了20个场景,包含74种多样化的物体,如图2所示。作者在每个场景上将EOS和随机方法运行一遍(finalFrame方法使用与随机相同的图像,但生成的预测分割不同)。尽管两个运行的场景复制并不完全相同,作者将它们设置为尽可能相似的,如开始时所做的那样比较初始图片。机器人在每个场景中执行3个动作。

结果 在机器人互动K步后,表2列出了像素化F分数()和物体大小归一化的F分数()。作者的行动选择策略和随机策略与finalFrame Baseline 表现一致。随着互动步数的增加,具有记忆的方法获得了逐渐改善的分割质量,并高于finalFrame。这说明具有信念更新的具身分割程序可以帮助机器人解决场景中的歧义并提高分割质量。为了说明信念更新以及行动选择在具身分割中的指导作用,作者在图3中还包括了EOS的定性结果。

将作者的方法与随机戳击 Baseline 进行比较,相同数量的互动步骤下,分割质量(对于两个指标)的提高更大。这表明具有UncOS和信念更新,在具身分割中可以对行动选择提供强大指导,具有更大的受益。同时,有趣的是,finalFrame方法并没有随着物体的移动而改进,这意味着信念跟踪在整体系统性能中发挥着重要作用,并且物体的物理隔离并不是导致改进的唯一原因。

VI Discussion

局限性和未来工作。首先,作者的方法并未利用多视角图像来降低不确定性。作者正在寻找将主动感知策略纳入以降低不确定性的方法。

结论。作者将不确定性感知的物体实例分割问题作为身临其境分割的基础。UncOS 生成了可能的分割假设分布。从 UncOS 得出的最可能假设已在 UOIS 任务上实现了最先进的性能。通过 real-world 实验,作者证明了 UncOS 可以引导身临其境的互动以实现有效的针对性消除歧义。

参考

[1].Embodied Uncertainty-Aware Object Segmentation.

0 人点赞