本文是来自AOMedia 2019的演讲,演讲者是来自cmu的Aswin C. Sankaranarayanan。本次演讲主要讲述使用深度生成模型进行物理建模。
Aswin C. Sankaranarayanan首先提到图像建模的发展促进了图像和视频处理技术,如JPEG的变换域编码,JPEG2000的稀疏小波,图像去模糊的稀疏梯度,MPEG的运动建模,BM3D的非局部均值,图像复原的字典学习。Aswin C. Sankaranarayanan将图像处理视为线性逆问题,从低分辨率插值到高分辨率的图像、部分像素缺失的图像、模糊图像和噪声图像可分别视作对原图进行了box平均、乘上一个掩模、与一个核进行卷积和叠加噪声的线性变换,需要通过图像超分辨率、图像修复、图像去模糊和图像去噪来解决这些线性逆问题。Aswin C. Sankaranarayanan提出可以使用一个深度生成模型来迭代地解决这些线性逆问题。
然后,Aswin C. Sankaranarayanan讲解了物体形状和反射属性的建模。物体以复杂的方式与光相互作用,物体形状的估计与反射函数的估计是内在耦合的,结果表明,利用信号先验可以稳健地估计形状和反射属性,这允许我们可以用新的照明来渲染对象。光照建模将多个光源同时照射下的场景分解为不同光源照分别射下形成的场景。Aswin C. Sankaranarayanan讲解了总的图像建立模型,测量的像素强度由入射光的光谱、物体的几何着色属性以及物体的反射谱决定,Aswin C. Sankaranarayanan使用深度生成模型来学习输入图像的反射、光照和几何属性,使用可微分渲染来估计物体形状。
最后,Aswin C. Sankaranarayanan讲解了一个基于物理感知建模的图像压缩框架,使用一个编码器将场景布局、光照、几何形状以及反射属性编码到较小的隐空间,然后再用一个物理感知解码器将这些编码后的内容进行可微分渲染,这是一个可解释的图像模型,对空间几何信息、照明条件和相机视点进行编码可以方便地操作图像内容,尤其适用于AR/VR等将现实场景重定向到虚拟场景的应用。
附上演讲视频:
附上演讲PPT: