标题:Persistent Homology based Graph Convolution Network forFine-grained 3D Shape Segmentation
细粒度3D语义分割是一项对每个3D点输入的标签进行语义分类的任务。对于智能制造、自动室内设计和家具布置、自主机器人操作、人机交互、3D服装分析等许多3D形状的详细处理和分析应用来说,这是一项必不可少的任务。由于细粒度3D对象的特定属性,分割细粒度3D对象涉及许多挑战,例如i)位于不同区域的复杂结构如何精确分割;ii)形状相关的拓扑结构如何分割(例如,物体的把手、门把手、设备线等这些结构)。这些属性总是表现在细微的部分或多个小的连接组件中,这对下游子任务(例如机器人操作)在语义分析上很重要。如何充分解释这两个主要结构对于准确的3D细粒度语义分割任务至关重要。因为该问题将大大降低语义理解3D细粒度对象的性能并产生不连贯的分割输出,从而影响智能制造和机器人相关操作。
近年来,基于深度神经网络的方法和几何学习方法已成为3D点云理解任务中的主流方法,无论是一般的3D对象分类还是对象的语义分割。但这些方法并不是专门为理解具有复杂结构或形状相关拓扑结构的细粒度3D对象的任务而设计的。因此,细粒度3D对象的复杂结构中存在的高维关系无法被精细捕获。
事实上,复杂结构中存在的几何和拓扑信息是理解细粒度物体形状的基本线索。拓扑数据分析(TopologicalDataAnalysis,TDA)作为一个新兴领域,它可以从复杂数据中推断出相关的拓扑和几何特征。TDA使用一种称为复杂过滤的机制来构建输入点云的多尺度拓扑结构,提取点云复杂结构中存在的高维关系,如图1(a)所示。然后,将TDA中的一种持久同源工具性应用于生成的严格递增子复合体的嵌套序列,以计算多尺度拓扑特征,表示为持久性条形码和持久性图,如图1(b)和(c)所示。生成的持久性图中的0-dim、1-dim和2-dim持久单调性特征可以分别对应于点云中的连接组件、循环和更高维对应物中。
图1 计算持久性图的pipeline。(a)改变尺度参数时过滤的子复合体(深蓝色和橙色)的演变,表示为每个数据点周围的浅蓝色圆圈的半径。(b)每个过滤的子复合体的相应持久性条形码,它保持同源类的生命周期。对于这个二维平面案例,0-dim和1-dim同类的拓扑特征分别用红色条和蓝色条表示。(c)将最终的持久性条形码转换为持久性图。
持久性是一种在给定参数变化时形状如何变化的度量。持久同源性提供了一种跟踪拓扑特征在某些参数(例如每个数据点的规模)变化期间何时出现和消失的方法。在此期间,会生成一个嵌套的简单复形序列,也称为过滤,如图1(a)所示。过滤通过增加尺度参数来捕捉单纯复形的演化过程,尺度参数可以被认为是数据点下的多尺度拓扑空间。因此,每个多尺度拓扑特征的寿命被记录为持久性条形码,如图1(b)所示。然后可以将持久性条形码转换为每个拓扑特征的出生时间和死亡时间,并表示为持久性图,如图1(c)所示。最终,可以捕获数据点中的形状的多尺度拓扑信息。
在这项工作中,作者利用TDA工具来提出一种新的网络模型,称为基于持久同源的图卷积网络(PHGCN),它将持久同源特征结合到GCN网络中,以增强其捕获3D对象中多尺度拓扑特征的能力。
为了进一步解决细粒度分割问题,作者发现细粒度对象中依赖于形状的拓扑结构,尤其是连接部分(例如,手柄、电线、旋钮)总是表现为小尺寸对象或薄连接组件,这使得连贯分割变得困难,因为通常用于分割任务的交叉熵损失可能无法充分反映拓扑误差,即使整体损失值很低。为了克服这个问题,作者提出了一种持久性图损失(LPD)作为拓扑约束,来确保分割输出具有足够的拓扑正确性,从而获得连贯的分割输出。
本文主要贡献如下:
(1)凭借持久的单调性特征,所提出的GCN网络模型能够捕获细粒度3D对象中复杂结构的多尺度拓扑特征;
(2)应用一种新的持久性图损失来增强预测中的拓扑正确性,以提供连贯的细粒度分割输出。
(3)所提出的工作证明了用计算拓扑方法扩展通用GNN/GCN结构的可行性。
2、核心思想
作者所提出的方法由两个核心模块组成:1)基于持久单调性的图卷积神经网络(PHGCN),用于通过拓扑持久性(PH)和图卷积网络(GCN)的相结合来捕获复杂结构中的多尺度结构信息,2)将持久性图损失(LPD)应用于优化中,以减少拓扑错误来实现分割细粒度结构。整个网络架构如图2所示。
图2 网络架构。
A网络架构:
图2中,作者参考Pointnet 的网络架构设计,提出的PHGCN模型采用编码器-解码器风格进行部分语义分割任务。编码器模块包含四个图卷积网络(GCN)层,它们被视为局部特征的提取器。然后,提取的局部特征与从复杂结构中提取的拓扑特征融合,由持久同源(PH)模块捕获。为了对编码器下采样的特征进行上采样,由四个FPConv层组成的解码器模块用于逐步内插特征。为了进行优化,使用3D对象每个部分类别的预测似然性和ground-truth来计算PD损失LPD,然后将其与交叉熵损失LCE进行合并。
B通用图卷积网络(GCN):
参考GACNet和ADConvnet的网络设计,作者通过聚合步骤和更新步骤构建了一个通用图卷积网络(GCN)层。在聚合步骤中,点云输入的每个点由其3D位置ri∈R3和D维特征fi∈RD表示。通过对球半径进行阈值处理,在其球形邻域Ni内随机选择其K个相邻点即Pij=(rij,fij)来构建Pi的K-neighbors图,其中rij=rj−ri∈R3是相对位置,fij∈RD'是增强特征。D'是变换特征的维数。通过soft attention机制,得到相邻点特征的加权和作为中心点Pi的聚合特征h'i∈RD′,
其中注意力权重aij可以通过反向传播来学习。在更新步骤中,聚合特征h'i会被输入到多层感知器(MLP)中。
C基于持久同源的图卷积网络(PHGCN):
通过应用顺序GCN层的计算,得到的局部特征图只捕获到局部邻域的特征,这不足以理解3D细粒度对象。因此作者采用拓扑数据分析工具来提取隐藏在3D细粒度对象的复杂结构中的基本信息。
持久同源性(PH)是一种来自拓扑数据分析的数学工具,能够提取点云中的稳定形状的拓扑特征。为了克服通用GCN模型无法捕获3D细粒度对象的复杂结构的问题,作者通过集成PH模块来扩展GCN模型,以提取复杂结构中的基本拓扑信息。
PH模块中描述了提取持久同源特征的方法,如图3(b)所示:N个3D点的输入点云可以被认为是一个有限的度量空间,记为XN,通过过滤构造XN的不同的尺度参数提取一系列多尺度滤波的单纯复形,表示为Filt(XN)。然后,应用持久同源性计算拓扑特征的演化,并保持拓扑特征出现时间和消失时间之间的周期,记为birthtime,b和deathtime,d。这些周期通常由持久性图表(PD)来描述,它是2D平面中的点集,其中每个点(b,d)代表第k个持久同源类,它在时间b出现并在时间d消失(维度k=0,1,2分别指连接组件、循环和空腔)。生成的PD反映了对解释复杂结构至关重要的多尺度汇总拓扑信息。另一方面,作者认为复杂结构的基本拓扑信息主要存在于循环和空腔中,因此所提方法中使用了一维和二维单调性特征。通过应用图1中所示的TDA的pipeline,可以将一维和二维的持久图分别提取并表示为PD1和PD2。
图3 PHGCN模块的pipeline。(a)GCN模块上的数据处理流程。(b)PH模块上的数据处理流程。
D持久性图损失LPD:
获得细粒度结构的连贯分割输出是十分困难的,因此作者通过使用持久性图进一步增强了具有正确的拓扑关系的分割输出。在这项工作中,不仅仅使用广泛用于语义分割的交叉熵损失,而且集成了一种新的拓扑损失,该损失测量预测似然和真实标签的两个持久图之间的拓扑误差。这种特定的拓扑损失称为持久图(PD)损失,表示为LPD。PD损失LPD应用1阶Wasserstein距离W1来找到这两个持久性图之间的最佳匹配m*(即可能性dgmL的持久性图和真实情况dgmGT的持久性图)。
其中u∈dgmL,v∈dgmGT和Wasserstein距离在这里使用每对点(u,v)∈m之间的L∞-范数距离,用于图dgmL和dgmGT之间的每个可能匹配m。一旦找到最佳匹配m*,LPD被计算为来自dgmL和dgmGT的每对匹配点之间的平方距离。
这里的LcPD是根据特定类别的3D对象的每个部分计算的。对所有零件类别(c=1,2,...,Nc)的PD损失进行求和以获得最终结果。
然后将LPD与交叉熵损失LCE相结合,得到最终的目标函数L进行优化。
因此,拓扑约束被附加在优化中,可以增强分割输出的一致性和连通性,特别是对于具有形状相关拓扑结构的细粒度对象。
3、实验环节:
A.ShapeNet-Part数据集的分割:
ShapeNet-Part数据集是3D细粒度逐点分割的第一个完整基准。它包含来自16个类别的16,881个CAD形状实例,并在2,048个采样点上标注了零件标签。零件标签共有50种。每个类别都用两到五个部分标签进行注释。
对于定量评估,作者按照PointNet的设置选择14,007个形状实例作为训练集,其余2,874个作为测试集进行准确性评估。每个实例的2,048个采样点的3D坐标作为输入。
定量和定性结果:表1提供了对ShapeNet-Part数据集进行评估的定量结果。在作者的评估中使用部分交叉联合(IoU)作为指标。结果表明,所提出的PHGCN取得了最佳结果,部分平均IoU为89.2%,优于所有其他方法。具体来说,PHGCN在结构复杂的细粒度物体(如台灯、吉他)和具有薄部件的物体(如耳机、杯子、桌子和椅子)上取得了显着的增益,这证明了持久同源性的一致性结果。PHGCN机制在解释细粒度对象的复杂结构和形状相关拓扑结构方面发挥了作用。ShapeNet-Part数据集的定性分割结果如图4(a)所示,即使ShapeNet-Part数据集也包含很多复杂结构和薄零件的形状,PHGCN模型的预测与ground truth部分标签注释也非常一致。为了更好地了解提取的拓扑特征的有效性,我们与两种代表性的几何深度学习方法(DGCNN、ResGCN-28)进行了定性比较。在图4(b)中,对于具有细粒度部分的对象(灯和杯子),(DGCNN、ResGCN-28)在小组件上存在连接断开和错误分类的问题,而PHGCN提供了具有足够拓扑正确性的连贯分割。对于具有多尺度和复杂结构的对象,(DGCNN,ResGCN-28)在车轮附近的手柄和部件被错误分割,而PHGCN输出了接近GT的准确分割结果。
表1 ShapeNet-Part数据集上的语义分割比较。评价指标是IoU(%)
图4 (a)PHGCN在ShapeNet-Part数据集上的定性结果。(b)与基线方法(DGCNN,ResGCN-28)的定性比较。错误的分割用虚线圈出。
B.PartNet数据集上的分割:
所提出的PHGCN模型在更大、更复杂的基准PartNet数据集的上进一步评估。PartNet数据集包含26,671个形状实例,并分为573,585个具有细粒度零件注释的零件实例。它涵盖了24个对象类别。在这些品类中,还有一些结构复杂的品类,如台灯、水龙头、椅子等。此外,一些类别,如门、冰箱、耳机,包含薄且语义上重要的部分,例如,耳机线、门把手或冰箱。PartNet数据集的所有这些属性都给准确部件分割带来了巨大挑战。
对于定量评估,作者按照PartNet的设置将数据集分成训练集、验证集和测试集,比例分别为70%、10%、20%。
每个输入实例是从每个CAD模型中采样的10,000个点,并且仅使用3D坐标作为输入。
定量和定性结果:在表2中,PHGCN的结果与PartNet数据集上的几种最先进的方法进行了比较。结果表明,所提出的PHGCN模型优于所有先前的最先进的方法,如PointNet 、PointCNN、ResGCN、ADConvnet,正如部分IoU所展示的那样,每个类别和所有类别的平均IoU。特别是PHGCN相对于图深度学习方法(例如DGCNN和ResGCN-28方法)提供了超过10%的相对改进。
表2 PartNet数据集中细粒度对象的语义分割比较。评价指标是IoU(%)。
图5.PHGCN在PartNet测试集上的定性结果。
C.消融分析
在ShapeNetPart和PartNet数据集上进行消融,以验证所提出的PHGCN模型的有效性。消融结果如表3所示:
表3 基于完整PHGCN模型的所有消融变体的部分mIoU分数。选择ShapeNet-Part和PartNet数据集进行评估。
表3比较了所有消融变体的部分mIoU分数。得出的结论是:i)对结果影响最大的模块来自PHGCN,因为多尺度结构信息在细粒度对象中是必不可少的。ii) 显示了LPD是影响性能的一个重要因素,特别是对于具有薄部件的细粒度对象。从这项消融研究中可以看出,所提出的模块和损失函数(构成完整的PHGCN模型)达到了最先进的精度。
本文仅做学术分享,如有侵权,请联系删文。