关注公众号,发现CV技术之美
本文为粉丝投稿,作者Summer Clover。
本文介绍一下我组在 ICCV2023 的论文S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural Fields
。
S3IM 这个工作背后的想法实际上很简洁,从这个 idea 在脑海里形成到最后提交到 ICCV2023 不过 2 个月时间。
用一句话来总结这个工作就是——我们提出了一种即插即用的 loss S3IM(随机结构相似性),可以 近乎零成本 地显著提升现存 NeRF 类方法的性能指标。在几个场景里,我们甚至可以 把 TensoRF 和 DVGO 这些经典模型的 Test MSE Loss 下降 99%,同时把 NeuS 的几何重建指标(比如 Chamfer L1 Distance)改善超过 60% 。
这里我们先看几组 RGB 和几何重建的可视化结果。
不仅如此,还可以提高对图像噪音的鲁棒性。如下图所示,S3IM 的渲染结果明显去掉了图像里灰蒙蒙的噪音。
毫无疑问,S3IM 极大地增强了现有的 NeRF 类方法。
S3IM 的精髓在于以两个像素集合之间的相似性作为训练损失;像素集合一般包含数千个像素,这些像素一起贡献了互相关联的、全局的结构信息。
而 NeRF 传统的MSE是一种以两个独立像素之间的 point-wise error 作为训练损失;所以 MSE 只包含了像素点孤立的信息、完全没有远距离或者全局的信息。
上面这两段话就是 S3IM 的 motivation。
为什么有结构信息更好?
这是一个很好的问题。
但我们先回答另一个相关的问题,为什么NeRF的性能指标要有3个——PSNR、SSIM和LPIPS?
PSNR 就是像素之间 point-wise 的度量。很早大家就发现,PSNR 好不代表真的就好。
SSIM(结构相似性)作为一种和人类视觉感知相关性更高的度量在 2004 年图像评估领域应运而生。
LPIPS 则是一种通过预训练神经网络提取特征计算特征距离的指标(一般叫做感知指标)。
SSIM 和 LPIPS 其实都具备衡量两个像素集合之间相似性的能力,而且与人类视觉感知相关性都比PSNR高。
熟悉 NeRF 的读者都知道,传统 NeRF 训练时是用 MSE Loss。而 PSNR 和 MSE 其实就是一个简单的对数关系。
MSE 和 PSNR 这类 point-wise 指标都是不够好的。一方面是和人类视觉感知相关性低,另一方面则是无法捕捉多个像素(像素集合)的整体信息。
那么SSIM和LPIPS可不可以直接作为 NeRF 的 loss 训练呢?
其实也可以,但仍然不够好。
因为 SSIM 和 LPIPS 都是基于卷积核的相似性度量,它们只能捕捉相近像素的局部信息,不能捕捉更远的像素包含的结构信息。
我们的 ICCV 工作就是把 SSIM(Structural SIMilarity)这个经典图像质量评估指标升级,变为 S3IM(Stochastic Structural SIMilarity)。
这个升级方式也很简单。SSIM 只能在图像 local patch 用卷积核对吧。
那我们把 NeRF 训练时每个minibatch的像素随机拼接成一个 patch(叫做stochastic patch),然后再用 SSIM 处理这些 stochastic patch 就行了。
有时候,真理就是这么朴实无华啊...
知名 3D 几何重建开源框架 SDFStudio 也已经把 S3IM 方法合并进去了。
最后再放一个量化的实验结果。表里 Multiplex 即是我们的 S3IM 方法。
S3IM 这个工作是我们 Machine Learning for Fields 系列工作的一环。我们在从机器学习的角度考虑场的问题。
无论是神经辐射场还是其他什么场,广义来说都是某个coordinate-wise的物理量。NeRF只是把辐射场的物理先验知识(空间中包含发光气体)嵌入了sampling的部分而已。这对3D场景表示不是完美的,但确实非常有用,也掀起了热潮。
对技术细节感兴趣的读者请直接读我们的论文和代码。
- 论文:https://arxiv.org/abs/2308.07032
- 代码:https://github.com/Madaoer/S3IM-Neural-Fields
END