编辑 | KING 发布 | ATYUN订阅号
想要把一张照片变成一个完整的3D模型,你可以利用3D打印机进行打印,或者从一堆图像中进行数字建模,以便在电影中能够达到栩栩如生的视觉效果。但是Nvidia已经成功地训练了神经网络,可以仅基于一张照片生成完全纹理化的3D模型。
我们之前曾见过类似的自动生成3D模型的方法,但是它们要么需要从许多不同角度拍摄一系列照片以获取准确的结果,要么需要人工输入数据以帮助软件确定物体的尺寸和形状。这些解决问题的方法不能说是错误的,但是它们确实限制了此类软件的潜在用途。
在一年一度的神经信息处理系统大会上,来自Nvidia的研究人员将提出一个新的文概念:学习预测与插值为基础的渲染3D对象,缩写为DIB-R。DIB-R也可称为可微分的基于插值的渲染器,这意味着它将其“看到的”内容与2D图像进行组合,并基于对世界的3D“了解”进行推理。这与人类将我们眼睛的2D输入转换为3D心理图像的方式极为相似。
Nvidia的研究人员在多个数据集上训练了他们的DIB-R神经网络,其中包括以前变成3D模型的图片,从多个角度呈现的3D模型以及从多个角度聚焦于特定主题的图片集。大约需要两天的时间来训练神经网络,以了解如何推断给定对象(例如鸟类)的额外维度,但是一旦完成,就能够以100毫秒的时间基于2D照片生成3D模型,而之前从未有过类似的成绩。
值得注意的是处理速度使该工具特别有趣,因为它具有极大地改善机器人或自动驾驶汽车之类的机器如何看待世界并了解其前身的潜力。从实时视频中提取的静止图像可以立即转换为3D模型,从而使自动驾驶汽车能够准确地确定需要避免的大型卡车的尺寸,或者通过机器人来预测如何正确拾取基于其估计形状的随机对象。DIB-R甚至可以提高负责识别人员并跟踪人员的安全摄像机的性能,因为即时生成的3D模型将使人员在视野范围内移动时更容易执行图像匹配,每一项新技术都是令人惊叹的。
随着进一步的发展,研究人员希望将DIB-R扩展到包括实质上使它成为虚拟现实渲染器的功能。团队希望有一天,这样的系统将使AI能够仅使用照片在毫秒内创建完全沉浸式3D世界。