基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!

基于视觉提示的自动异常检测在制造业和产品质量评估等各个领域具有重要的实际意义。本文提出了一种新的条件异常检测问题，即通过将 Query 图像与参考形状进行比较来识别其中的异常。为了应对这一挑战，作者创建了一个大型数据集BrokenChairs-180K，包含约18万张图像，这些图像具有多样的异常、几何形状和纹理，并与8,143个参考3D形状配对。为了处理这项任务，作者提出了一种基于新型 Transformer 的方法，该方法通过特征对齐显式地学习 Query 图像与参考3D形状之间的对应关系，并利用定制化的注意力机制进行异常检测。作者的方法已经通过全面的实验进行了严格评估，为该领域未来的研究提供了基准。

1 Introduction

异常检测（AD），识别不规则或显著偏离正常性的实例，在多个领域中都是一个积极研究的课题。在标准的视觉AD基准测试中，"不规则性"通常由以下因素引起：高 Level （或语义）变化，如出现未见过的类别目标；物体上的缺陷，如划痕、凹痕；颜色、形状、大小的低 Level 变化；或像素级噪声[16]。标准的做法是学习表示，同时还有能够对常规实例集合内的变化鲁棒，同时又能对引起不规则性的因素敏感的分类器。然而，当不规则性是任意的，并且取决于实例的上下文和/或个体特征，而这些可能事先不知道或未被观察到时，这种范式表现得很差。例如，在像"椅子"这样包含视觉上非常多样实例的物体类别中，三条腿可能意味着缺少一条腿，因此对于某个椅子实例来说是异常，而对于另一个实例则是正常的。这里的AD取决于椅子实例最初是否被设计为有三条腿。

受到上述直觉的启发，本文介绍了一种新颖的条件AD任务，以及一个新的基准和一个有效的解决方案，旨在根据参考3D模型（参见图1），从物体实例的照片（即 Query 图像）中识别和定位异常。3D模型为常规物体实例提供了参考形状，因此为 Query 图像提供了明确的规定性定义。这种设置是由实际应用中的检查和质量控制驱动的，在这些应用中，物体实例是基于参考3D模型制造的，然后可以用该模型从实例的照片中识别异常（例如，生产故障、损坏）。

提出的任务超越了标准AD基准中单一图像分析，需要通过比较两种模态（图像与其参考3D模型）来检测微妙的形状异常，这之所以具有挑战性，有三个原因。首先，作者希望作者的模型能够在测试时从图像-形状对中检测到之前未见过的目标实例的异常。泛化到未见实例要求学习丰富的表示编码一系列不同的3D形状和外观，同时能够精确地定位异常。其次，参考3D模型只包含形状信息而不包含纹理信息，以模拟一个真实场景，即3D模型可以用来生成具有不同材料、颜色和纹理的实例。两种模态之间的这种域差异要求学习对这种外观变化不变且对几何变化敏感的表示。最后，在作者的基准中， Query 图像中目标实例的视角在训练中是未知的。这要求模型以无监督的方式在模态间建立局部对应关系，即对于每个图像块对应的3D位置。

为了应对第一个挑战，作者提出了一个新的大规模数据集 BrokenChairs-180K，包含大约180具有多样化异常、几何和纹理的 Query 图像，与8,143个参考3D形状配对。在如此多样化的数据集上进行训练能够学习丰富的多模态表示以泛化到未见目标。为了解决 Query 图像与参考形状之间的域差距，作者采取了两种策略。首先，作者从多个视角渲染每个参考形状以生成一组多视图图像来表示3D形状，并将其与 Query 图像一起作为输入传递给作者的模型。多视图表示通过在 Query 和多视图图像之间共享相同的编码器，促进学习域不变表示。其次，作者的模型_Correspondence Matching Transformer （CMT）通过应用一种新颖的跨注意力机制通过一组稀疏的局部对应关系来学习捕获跨模态关系。最后，为了应对第三个挑战，作者使用了一个辅助任务，迫使模型学习 Query 和多视图图像中每个局部图像块的不变视角表示，这使得作者的方法能够对齐对应于相同3D位置的局部特征，而无需 GT 对应关系。

总之，作者的主要贡献有三个：

提出了一个新颖的AD任务，一个大规模的基准测试平台，为未来的研究提供了测试床，以及一个定制解决方案。作者的模型包括多项技术创新，包括用于3D形状的混合2D-3D表示，一种基于 Transformer 的架构，它通过图像级监督共同学习密集对齐 Query 和多视图图像，并检测异常。
作者在广泛的消融研究中的结果表明，3D信息与对应匹配相结合可以显著提高性能。
作者还进行了一项额外的感知研究，评估人类在该任务上的表现，表明所提出任务具有挑战性。最后，作者在真实图像上评估了作者的技术，展示了有希望的结果。

2 Related Work

AD方法。关于详细的文献回顾，请参阅。与标准的AD技术不同，作者关注的是一个条件性的多模态AD问题，这需要联合分析 Query 图像与参考3D形状以检测图像中的局部不规则性。

条件/参考性AD。在许多AD应用中，一个实例的异常取决于其特定的上下文[32]。例如，在特定的空间和时间背景下，可以更准确地检测异常的温度变化。作者还研究了一个特定的条件AD问题应用，其中上下文信息是实例特定的，并且来自于一个参考3D形状。

AD图像基准。在AD发展的一个主要问题是缺乏带有真实异常的大型数据集。对于语义异常，一个常见的做法（例如）是从现有的分类数据集（例如MNIST，CIFAR10）中选择任意子集作为异常类，只对剩余的类训练一个模型。还存在包含不规则形状物体[31]，带有划痕、凹痕、污染等各种缺陷的物体[3]，以及关注一次一个样本的纳米纤维材料中的多种缺陷[6]的多个数据集。一个并行的工作PAD[38]与作者的目标相似，但作者的任务假设较少，旨在检测细粒度的几何异常。此外，与仅包含20个动物玩具乐高积木的PAD数据集相比，作者的数据集包含具有多样化几何、纹理和更广泛细粒度异常的现实椅子的大型收集。

2D-3D跨模态相关性。基于图像的3D形状检索是一个相关问题，旨在为给定的2D图像检索最相似的形状。大多数现有作品将2D图像和3D形状学习嵌入到一个公共特征空间，并使用Triplet Loss进行度量学习。与主要涉及全局 Level 匹配的检索任务不同，作者的重点是理解形状与图像之间细粒度局部细节的相关性，以检测图像内的异常。另一个相关领域专注于通过使用Triplet Loss在局部匹配2D和3D，使用从粗到精的方法匹配图像和点云[21]，使用全局到局部的图神经网络提高匹配鲁棒性来学习2D-3D对应关系。2D-3D相关性还用于特定应用，如目标姿态估计[22, 37]，3D形状估计和使用一组3D模型在图像中进行目标检测[2]。与这里讨论的方法不同，作者的目标是识别并定位给定2D Query 图像相对于参考3D模型的异常。

**3 Building BrokenChairs-180K Dataset**

据作者所知，目前还没有一个大规模的公开数据集包含配对的3D形状和图像。因此，作者推出了_BrokenChairs-180K_，这是为所提出的条件性异常检测任务而设计的新基准。作者的数据集专注于从一个类别生成样本，即“椅子”，它包括各种子类别，如沙发、办公椅和凳子，而作者的生成 Pipeline 是通用的，也适用于其他类别。作者选择这个类别是因为椅子包含了非常广泛的形状、外观和材料组合，这使得它们非常适合作者的实验。以下，作者将描述生成过程，包括异常创建和真实图像渲染。更多细节可以在附录中找到。

Creating Anomaly from 3D Objects

3D形状收集。 为了覆盖各种椅子部分（如腿、扶手和头靠）的细粒度异常，作者努力收集带有部分标注的3D形状，因此选择使用PartNet [25]作为作者的起点。PartNet是一个大规模的3D目标数据集，带有细粒度的部分标签标注。其椅子类别是人口最多的类别之一，为作者的任务提供了丰富的3D形状资源。特别是，作者从PartNet中使用了8,143个3D椅子形状。给定一个椅子的3D模型及其部分标注，作者通过应用下面描述的几何变形自动创建异常。

异常形状的生成。 作者的数据库涵盖了五种与实际应用相关的异常场景（见图2）。_(1) 位置异常_ 涉及椅子部分从指定位置偏离的情况。为了创建位置异常，作者从正常的3D模型中随机选择一个部分，并应用随机平移。_(2) 旋转异常_ 是通过对随机选择的3D部分应用3D旋转变换来创建的。_(3) 破损的部分_ 包括结构组件破损或损坏的情况。作者使用布尔减法根据[19]合成地生成断裂，通过从部分网格中减去一个随机的球形或立方几何原语来破裂椅子的一部分。_(4) 组件交换_ 涉及在不同椅子实例间交换常见部分（例如，一把椅子的'背连接器'与另一把椅子的'背连接器'交换），模拟制造过程中的错误组装。_(5) 缺失组件_ 随机选择一个部分并将其从3D形状中移除。接下来，作者讨论带有照片级真实纹理的 Query 图像的生成。

Photo-realistic Rendering of 3D objects

分配材料给3D形状。 PartNet中的形状只包含基本纹理，没有真实材料。为了实现真实感渲染，作者使用了来自[27]的照片级可重新打光的材料，表示为SVBRDF。总共，作者利用了400个公开可用的SVBRDF材料，涵盖各种类型，如木材、塑料、皮革、布料和金属。遵循PhotoShape [27]，作者自动为3D形状的每个语义部分分配一个材料，并使用Blender的“智能UV投影”算法来估计纹理所需的UV贴图。

渲染与视图选择。作者从围绕物体的半球内采样不同的视角来渲染每个形状。视角以球坐标参数化，其中方位角值在区间内均匀采样，间隔为，仰角值在内均匀采样。所有视图的半径固定为。对于异常形状，只有当异常部分从摄像机视角可见时，作者才保留渲染。作者采用了一个质量控制与验证步骤（见附录）来丢弃质量差的样本。

表1：数据集统计。第一行展示了在作者数据集中使用的独特3D椅子实例的数量，第二行指示了从这些形状渲染的总图像数，第三行表示每个形状目标的渲染视图数对应的[min., max., median]值。

数据集统计。 作者的数据集总共包含8,143个参考3D形状（正常），以及大约180张以像素分辨率渲染的图像。在这些图像中，100包含异常，其余的归类为正常。由于在作者的解决方案中，作者使用无纹理的多视图图像来表示参考3D形状，因此作者进一步提供了灰度多视图图像1，从每个参考形状的20个规则采样视图中渲染。然而，3D表示不必是多视图图像，未来算法在解决条件性异常检测问题时，可以从参考形状获得网格、点云或 Voxel 等替代表示，并采用它们。

这些统计的详细分解在表1中提供。作者将数据集分为三个不同的集合：138用于训练，13用于验证，26用于测试。每个集合包含从一组互斥的3D形状渲染的图像。因此，评估是在_之前未见过的_3D形状上进行的。作者的数据集还包含边界框和分割 Mask ，用于定位任何异常区域。

4 Proposed Method

Overview

令表示从未知视角捕获的维度RGB物体图像，表示从参考形状在半球上均匀采样的个视角渲染出的维度图像集合。作者假设模型能够访问每个多视角图像的摄像机姿态和深度图。作者希望学习一个分类器，它接收和并预测 GT 二值异常标签。给定一个标记的训练集，包括 Query 、多视角和标签三元组，可以通过最小化损失项来优化分类器：

其中是二进制交叉熵损失函数。

理想的分类器必须通过为中的每个 Patch 找到中的相关 Patch 并将它们进行比较，来识别中的微妙形状不规则性。一种直接关联 Query 和多视角图像中 Patch 的设计是使用交叉关注模块[34]。特别是，可以使用从提取的局部特征作为 Query ，从提取的特征作为键和价值矩阵，作为[34]中缩放点积注意力的输入，在预测异常标签时对它们进行交叉相关。虽然这种设计可以在仅图像级监督的情况下隐式捕捉到这些 Patch 之间的此类交叉相关性（如通过等式(1)训练时），但实际上它并不比仅在 Query 图像上训练的类似模型表现得更好（参见第5节）。作者认为，未能利用是因为仅从图像级监督中建立所有 Query 和多视角图像 Patch 对之间的正确对应关系存在困难。

图3：作者提出的条件异常检测任务的CMT框架的总体架构。作者的CMT接收以下输入： Query 图像和渲染的多视角图像。作者使用编码器提取 Query 特征和多视角特征。此外，作者使用_3D位置编码_（3DPE）获取多视角图像的3D位置特征。接下来，将和连接起来，并输入到_对应引导注意力_（CGA）网络，记为，以及 Query 特征。CGA网络通过_top- 稀疏交叉注意力_（TKCA）机制，有选择地对多视角图像中最相关的 Patch 子集的最终预测进行条件设置。_视图无关局部特征对齐_（VLFA）通过半监督学习对齐编码器输出特征，以实现视图无关表示。

为了应对这一挑战，作者提出了一种新模型，_对应匹配 Transformer （CMT），它包括一个CNN编码器、一个_3D位置编码_（3DPE）模块、一个_对应引导注意力_（CGA）网络，以及最后的_视图无关局部特征对齐_（VLFA）机制（见图3）。虽然3DPE模块编码多视角图像中 Patch 的3D位置并促进跨视图寻找局部对应关系，但CGA网络通过top- 稀疏交叉注意力（TKCA）机制，有选择地对多视角图像中最相关的 Patch 子集的最终预测进行条件设置。最后，VLFA通过半监督学习为 Query 图像和多视角图像中相似区域之间建立对应关系提供更丰富的监督信号。接下来，作者将详细描述它们。

Correspondence Matching Transformer

CMT使用ResNet18特征金字塔网络[24]作为特征编码器，表示为，其中输入通过网络缩小了8倍（和）。一旦作者提取了的特征以及每个的特征，分别是和，作者将它们各自 Reshape 为维的矩阵，分别表示为和，其中。和中的每一列对应一个维局部特征。作者使用表示法来指代第个局部特征或 Patch 编码，因为由于卷积编码器的局部性，每个编码大约对应输入图像中的一个局部 Patch 。接下来，作者描述CMT的关键组成部分，包括3DPE和CGA模块。

3D位置编码（3DPE）。虽然多视图表示允许通过共享特征编码器为作者的任务设计简单高效的模型，但它也使得3D信息不那么容易获取，因此阻碍了准确关联不同视图之间的局部特征。为了减轻这个问题，作者 Proposal 用3D信息补充多视图图像。对于每个 Patch 编码，作者首先在中定位对应的图像 Patch ，然后使用已知的相机参数和深度图计算对应 Patch 在世界坐标3D中的3D位置。然后作者使用傅里叶编码为每个获取更高维的向量，并通过MLP块进一步处理它以获得维的3DPE。正式地，作者通过表示联合映射。

与 Transformer 模型[11]中使用的2D标准位置编码相比，3DPE在世界上编码了3D目标几何。对于每个包含 Patch 编码的，作者计算对应的维矩阵。在下一步中，作者在个视图中收集和，并将每个集合沿它们的第二维度连接起来，得到和，其中。将与结合，通过将显式的3D信息融入到2D多视图图像中，产生了一种新颖的混合2D-3D表示。

对应引导注意力（CGA）。如图4所示的CGA网络接收，，并预测异常标签，同时高效计算两种模态之间的相关性。CGA由个连续的 Transformer 块组成，每个块包含多个操作，并以下标索引。特别是，块首先沿着它们的第一维连接和，然后通过线性投影层（方程（2））将得到的维矩阵降低到维矩阵。自注意力操作（SA）应用于 Query 特征（其中，方程（3）），然后通过应用线性投影分别计算 Query （方程（4））和键值矩阵，（方程（5））。

接下来，作者将传递给作者的top- 稀疏交叉注意力（TKCA）模块（见方程式 (6)）。与标准 Transformer 中的普通交叉注意力模块 [11, 34] 不同，后者在注意力计算中摄取所有标记，这对于作者的任务来说效率低下，并且可能会引入与不相关特征的噪声交互，可能导致性能下降，TKCA 使用相似性矩阵在 Query 与相关多视图特征的小子集之间计算注意力：

其中定义如下：

图4：作者提出的对应引导注意力（CGA）。CGA包括个基于 Transformer 的块，每个块由一个标准的自注意力模块后面跟随一个top- 稀疏交叉注意力（TKCA）模块组成。

其中操作为第个 Query 特征从多视图表示中选择最相似的特征（见图5）。为了计算，作者使用辅助函数，它是一个四层MLP，然后通过最后的通道归一化，将和中的每个视图投射到视图无关的特征空间，在该空间中，对应于3D中相同物体部分的图像具有不依赖于其观察点的相似表示。为了获得 Query 和多视图块之间的相似性，作者计算它们投射特征之间的点积：

与采用稀疏注意力机制的其他Transformer架构[35]不同，TCKA选择基于两种模态间计算出的几何对应关系的不同信息源，选取前个元素，并能够在Transformer块中高效地计算交叉注意力，因为整个Transformer块都使用相同的。在交叉相关性操作之后，应用标准的残差加法、归一化和前馈神经网络（FFN）层，以获得输入到下一个块的（方程（7）至（9））。请注意，作者使用多个头，将多头注意力的输出进行拼接，然后通过线性投影推导出最终的注意力结果。作者添加一个可学习的标记，记为[tok]，以构建CGA网络的 Query 输入。通过Transformer块，[tok]标记的输出状态发展出一个通过学习形状-图像相关性丰富化的综合表示，这用作分类头的输入。

View-Agnostic Local Feature Alignment

正如上述所讨论的，仅凭图像 Level 的监督太弱，无法捕捉到与之间细粒度的局部相关性。因此，作者引入了一个辅助任务VLFA，旨在密集地对齐 Query 图像与相关视图之间的对应部分。通过，作者学习将和映射到一个与视图无关的空间，使得它们对应于相同目标部分的局部特征，无论图像是从哪个视角捕获的，都能映射到相似的点。由于的视角未知，无法通过逆向渲染获得 Query 视图和参考视图之间的真实对应关系。

为此，作者采用自我标记策略，在每次训练步骤中，将特征映射到视图不变空间并对其进行归一化后，找到参考视图中与 Query 中的每个局部特征最相似的局部特征，生成伪对应关系：

其中和。作者为每个计算伪标签，并将其存储在一个查找表中。在另一个中，作者存储了不是对应位置的剩余参考视图和索引值集合。然后，分别使用作为正负对应关系，作者对每个 - 对的最小化对比损失进行优化。

其中是一个温度参数，。由于计算所有视图上所有 Query 特征的伪对应关系的成本，作者仅在每次训练迭代中为随机采样的视图上的 Query 特征的一个随机子集计算它们。

仅通过自学习在学习 Query 视图和参考视图之间的领域差距存在的情况下学习对应关系是一个噪声过程。因此，作者还利用多视图图像的已知视角，在计算每对视图之间的 GT 密集对应关系并对其中被一个视图遮挡的对应关系进行剔除之后，密集对齐它们的局部特征。这里的关假设是，使用它们的真实标签对齐不同的视图能够使得 Query 图像和视图之间的对应学习更加准确，因为两个域之间共享投影的参数。像之前一样，作者构建两个查找表和来存储两个视图之间的正负对应关系，并随机子采样它们。在将它们映射到视图不变空间并对其进行归一化之后，作者计算并最小化查找表中的对应对应于方程式 (14) 的损失。

方程式 (1) 中的目标可以重写为：

其中和分别是针对 Query 视图对和视图视图对的对比损失函数，是一个损失平衡权重，设置为。

5 Experiments

实现细节：编码器接收一个的图像作为输入，并输出一个的特征块。在CGA网络中，作者采用了三个 Transformer 块（），每个块应用8头注意力。在TCKA中，的值设置为。在训练期间，作者随机选择一个视图的子集，在测试期间，作者使用全部20个视图。作者对 Query 图像应用了基本的数据增强，包括随机水平翻转和随机裁剪的区域，然后将裁剪区域重新调整回原始大小。作者使用4个Titan RTX GPU进行20个周期的训练，每个GPU保持8的批量大小，并使用学习率为的Adam优化器。更多细节请参见补充材料。

Results

由于作者的任务没有相关的公开基准，作者定义了几个具有挑战性的 Baseline 来评估作者的CMT。作者在表2中报告了使用两种评估指标——ROC曲线下的面积（AUC）和准确度的定量结果，并在图6中提供了定性结果。

3D参考形状的重要性。 为了评估使用参考形状的重要性，作者建立了仅依赖 Query 图像来检测异常的 Baseline 。作为作者的第一个 Baseline ，作者使用了一个仅接收 Query 图像作为输入的ResNet18-FPN模型。接下来的两个 Baseline ，作者在ResNet18-FPN中增加了三个自注意力块，并分别使用了ViT [11]。表2显示，参考的3D形状对良好性能至关重要，而CMT的准确度比 Baseline 高出10%以上。

与相关工作的比较。 由于没有针对作者问题的先前工作，作者采用了两种最新的基于图像的3D形状检索技术[14, 23]，这些技术学习将2D图像和3D形状嵌入到一个共同的特性空间中，并使用Triplet Loss进行度量学习。在作者数据集上训练它们之后，作者通过使用 Query 和参考形状嵌入之间的距离在阈值步骤后获得分类分数来评估它们。根据表2的结果，作者认为这些方法无法定位几何中微妙的差异，因为跨模态相关性仅在图像 Level 学习，缺少细粒度的局部对应学习。

CGA、VLFA和3DPE的消融研究。 作者的第一个 Baseline （）不包括这三个组件，只包括一个标准的跨注意力模块，使用所有局部 Patch 来关联两个模态。令人惊讶的是，A仅比仅 Query Baseline 提高了1.6%的准确度，这表明它无法充分利用参考形状。 Baseline 仅包括带有top-稀疏跨注意力的CGA组件， Baseline 包含VLFA，但带有标准的跨注意力。虽然 Baseline 在A上没有显示出太多改进，但 Baseline 比A表现得显著更好，准确度提高了5.2%。这清楚地证明了辅助任务的重要性，作者为AD任务学习匹配对应，且在没有VLFA的情况下，CGA无法获得有意义的对应。 Baseline 采用了CGA和VLFA，进一步提升了的性能，通过其选择性的稀疏注意力机制。最后，作者的模型包括了所有组件，在引入3DPE后，它比表现得更好，因为3DPE促进了不同视图之间的对应匹配。

损失函数的消融研究。 表3报告了对用于学习视图无关表示的损失函数的消融研究。仅使用 Query 视图对齐损失（）没有带来任何优势（第2行）超过不使用任何对齐损失（第1行）。然而，单独使用视图视图对齐（）会导致结果改善（第3行）。当两个组成部分结合时，可以达到最佳结果（第4行）。

对的敏感性分析。 作者在图7（左）中分析了不同值下的性能。与最大的可能即相比，作者分析了显著更小的值，并且显示产生了最佳结果。使用所有可用的标记会导致性能恶化（以虚线水平线表示），这表明作者的top-稀疏注意力通过仅使用个最相关的标记有效地消除了噪声 Patch 。

对的敏感性分析。 图7（右）描述了训练和测试中输入视图数量的分析，分别为和。为此，作者分别用5个和10个视图训练两个单独的CMT模型，并在测试时分别使用5、10、15和20个视图进行评估。图表显示，在训练和测试中增加视图是有帮助的，但用少数视图进行训练并在更多视图中进行测试可以在训练时间和性能之间提供一个良好的折中。

视点预测。 由于在作者的模型中建立了 Query 图像与多视图之间的对应关系，因此作者可以估计 Query 图像相对于参考形状的摄像机视点。为此，作者计算了 Query 图像与每个视图图像之间的密集对应关系，然后计算 Query 图像中每个点的像素坐标与其在多视图图像中预测对应点之间的距离，并选择平均距离最低的视图作为近似视点。作为一个 Baseline ，作者仅用正常图像上的视点监督训练了一个ResNet，并在测试正常 Query 图像上进行评估。作者的模型，在没有任何视点监督的情况下进行训练，在预测最接近视图时取得了显著更好的准确率（47%对比89%），这表明作者的模型隐式地学会了将 Query 图像与最接近的视图相关联。

真实数据的评估。 这里作者将在合成_BrokenChairs-180K_数据集上训练的模型应用于一组小型真实椅子样本，这些样本包含多个参考3D形状的实例， Query 图像包含从不同视点拍摄的正常或非规则实例，这些实例可能存在破损、移除或错位的部分。在预处理步骤中使用分割方法[17]去除 Query 图像中的背景像素，并添加了合成阴影以匹配训练图像。为了获得参考3D形状，作者围绕目标实例走动时拍摄多张照片，使用3D重建软件[33]，最后应用Laplacian平滑进行后处理。图8展示了两个规则参考形状的结果，每个都与三个 Query 图像配对。在6个案例中的5个，作者的方法成功地对异常部分进行了分类和定位，而在失败的案例中，它错误地将自遮挡的扶手与异常相关联。

异常定位。在这里，作者采用作者的模型以边界框的形式定位异常，使用边界框回归头（一个4层MLP），并通过使用L1回归和广义IoU损失[29]与其他网络参数联合训练它。这个模型在作者的数据集上达到56.5%的平均精度，优于仅在实际 Query 图像上训练的ViT Baseline ，后者得到42.6%。此外，联合学习分类和定位进一步将分类性能提升到85.9 ( 1.2) AUC和77.3% ( 1.9)准确率。

用户感知研究。作者还评估了人类在作者任务中的表现，并对100名参与者进行了研究。作者向每位参与者展示了10对参考形状和 Query 图像，每对都是从200个随机子集中随机选择的。作者观察到人类的准确率为70.6%，这表明所提出任务是具有挑战性的，而作者的CMT在相同的子集上获得了74.8%的更高准确率。

6 Conclusion

在本文中，作者提出了一项新的异常检测任务、一个新的基准测试以及一个受到制造业质量控制和检测场景启发的定制解决方案。作者展示了，为了准确检测几何形状中的细粒度异常，需要对两种模态进行仔细的联合研究。作者的方法通过在有限监督下学习这些模态之间的密集对应关系来实现这一目标。

作者的基准测试和方法也存在一些限制。由于获取真实损坏物体的难度和成本较高，作者的数据集仅包含合成物体的形状和图像，目前仅限于一个种类繁多但单一的“椅子”类别；

每个查询图像中仅存在一个异常，且只关注形状异常，排除了基于外观的异常，如褪色、色差和纹理异常。此外，作者的方法假设物体实例是刚性的，无法处理关节活动或形变，并且需要准确的参考3D形状才能进行精确检测。

参考

[1].Looking 3D: Anomaly Detection with 2D-3D Alignment.

模型数据异常渲染测试

0 人点赞