长期以来计算机视觉一直难以从单个图像中理解对象及其特征,这一主题在机器人技术、辅助技术和 AR/VR 中都有应用。3D 对象识别问题提出了与从 2D 视觉输入中感知 3D 事物相关的新挑战。近十年来大规模数据集帮助 2D 对象识别在预测和定位 2D 图片网格上的项目方面取得了重大进展。另一方面世界是在三个维度中三维构建的。在这里目标是创建一个紧密定向的 3D 边界框,用于估计图片中每个项目的 3D 位置和范围。
目前正在研究 3D 对象识别的两个领域:内部环境和具有自动驾驶汽车的城市领域。尽管问题表述相似,但对城市和内部场景解决方案的跨领域见解很少。方法经常被设计成只在给定的域中起作用。例如城市技术代表 3D 旋转的偏航角,并假设对象位于地平面上。有限的深度范围用于室内程序(例如,高达 6m 英寸)。大多数时候这些假设对于现实世界中的事物和场景是不正确的。
使用图像进行 3D 对象识别的最广泛使用的基准也有点小。Urban KITTI拥有7k张照片,室内SUN RBG-D包括10,000张;相比之下像 COCO 这样的 2D 基准测试的范围要大 20 倍。他们引入了一个名为 OMNI3D 的大型且多样的 3D 基准测试,以解决缺乏用于 3D 对象检测的通用大规模数据集的问题。OMNI3D 是 234k 图像的集合,其中 300 万个对象用 97 个类别的 3D 框进行注释,包括椅子、沙发、笔记本电脑、桌子、杯子、鞋子、枕头、书籍、汽车、人等。它是从公开可用的数据集中策划的,包括 SUN RBG-D、ARKitScenes、Hypersim、Objectron、KITTI 和 nuScenes。
SUN RGB-D 和 KITTI 是 3D 检测的两个标准基准,比 OMNI3D 大 20 倍。它们为 3D 框技术提供了一种新颖、快速、批量和准确的交并并集技术,用于对大型数据集进行实际评估,比现有方法快 450 倍。使用证据证明 OMNI3D 作为海量数据集的价值,表明它可以在城市地区的基准测试中将单数据集的 AP 性能提高 5.3%,在室内空间的基准测试中提高 3.8%。在这个新的数据集上,开发了一种通用且简单的 3D 对象检测器,称为 Cube R-CNN,它产生跨领域的前沿成果,并受到近年来 2D 和 3D 识别方面的重大研究进展的推动。
Cube R-CNN 可以检测图像中的每个项目及其所有 3D 属性,包括旋转、深度和域。由于 OMNI3D 的复杂性,我们的模型表现出很好的泛化性,并且比使用单个集成模型的室内和城市环境的其他研究表现更好。从如此广泛的数据中学习存在困难,因为 OMNI3D 包含焦距剧烈波动的图片,这加剧了尺度深度的模糊性。他们通过虚拟深度在数据集中使用相同的虚拟相机内在函数转换对象深度来解决这个问题。
在训练期间使用数据增强(例如图片重新缩放)是 2D 检测的关键组成部分,正如所证明的,对于 3D 来说,虚拟深度也是一个额外的优势。与以前最先进的方法相比,采用单一统一设计的解决方案在室内 SUN RGB-D 上的 IoU3D 比 Total3D 高 12.4%,在城市 KITTI 上的 AP3D 比 GUPNet 高 9.5%。OMNI3D 的代码可在 GitHub 上找到。
https://arxiv.org/pdf/2207.10660v1.pdf
https://github.com/facebookresearch/omni3d
https://garrickbrazil.com/omni3d/