CVPR2018
SfSNet: Learning Shape, Reflectance and Illuminance of Faces `in the Wild'
之前相关人脸本质图像分解的工作都是在合成数据集中完成的, 但到真实的人脸,不同分布使得泛化效果很差,这篇论文的特色是提出了一种新的训练范式(SFS-supervision),从真实无标签的真实人脸数据中学习形状,反射以及光照,并且还提出了一种更强大的网络模型(SFS-Net)。 SFS-supervision分为以下三步: - a)先使用3DMM中合成的数据集训练SFS-Net; - b)然后用训练好的网络对真实的人脸数据集生成伪标签; - c)最后共同训练合成数据集以及带有伪标签的真实数据集。 直接对真实图像使用重建损失进行反向传播会使分解过程中各个组件发生崩溃而产生平凡解,这里的伪标签是很大程度上缓解这种情况的产生。 SFS-Net网络结构如下:
网络并没有采用传统的U-Net结构,作者指出了U-Net的缺点,由于高频特征可以直接通过远跳跃连接从编码器传到解码器,所以对于胡须以及皱纹这种高频特征是不知道它来自于Normal还是Albedo的,潜在空间所具有的信息性弱,所以作者提出了SFS-Net,通过一个共享Conv,然后分两路通过Normal Residual Blocks和Albedo Residual Blocks(残差块可以进行低频与高频的共同学习),得到Normal features和Albedo features,最后Normal features和Albedo features分别通过各自的Conv得到形状图以及反射图,生成光照信息则是将image features,Normal features和Albedo features三者进行concat,然后通过一个Light Estimator得到SH light,最后形状图和光照信息联合通过一个函数得到光照图,光照图和反射图相乘重建出原图。网络有四个LOSS,除了SH light是L2 loss,Normal,Albedo以及Recon都是L1 loss。网络更多细节参考论文附录和代码.
ECCV2018
Single Image Intrinsic Decomposition without a Single Intrinsic Image
本质图像分解按照图片的数量可以分为single-image based和multi-image based,基于单张图片的方法的缺点在于缺少标签,而基于多张图片的算法虽然不需要标签,但由于需要多张图像,这在现实情况下很难应用。 本文提出了一种全新的思路,通过多张图片进行无GT训练,但在测试过程中使用单张图片进行预测,还可以联合带标签的数据进一步提升分解效果,实验表明当使用50%的标签图像时就可以达到SOTA。 网络结构图如下:
Joint Learning of Intrinsic Images and Semantic Segmentation
这篇论文是本质图像分解与语义分割的结合,本质图像去除了光照的影响,会促进语义分割的准确度,而语义分割的标签给图像分块,使得图像具有像素块的颜色信息,边界导向的信息,同质反射值相同信息等等,所以语义分割应该也会促进本质图像分解的性能。 由于缺少既有本质图像以及语义分割的数据集,所以作者自己做了一个,场景级下的自然环境合成数据集,含有本质图像GT以及语义分割GT。另外,作者提出了一个新的层级CNN架构用来联合训练本质图像分解以及语义分割,最后用实验分析了两种问题联合训练所带来的好处。 CNN层级架构如下:
网络结构与U-Net有些不同,一个是多一个生成语义分割图的decoder,另外光照图的decoder和反射图以及语义分割的decoder进行了互相层间级联concat,这种网络有一点比较有特色,通过这样级联以及共用一个编码器,可以是本质图像分解以及语义分割互相影响,相互监督并促进性能提升。作者做了多个实验验证了两个任务的确有促进作用,联合训练效果更佳。 损失函数如下图,反射图和光照图使用的MSE以及带尺度的MSE,语义分割图用的则是交叉熵损失函数,p_x^L代表给定像素x属于类别L的概率。
项目主页:https://ivi.fnwi.uva.nl/cv/intrinseg (数据集和模型还未公开)
CGIntrinsics: Better Intrinsic Image Decomposition through Physically-Based Rendering
这篇论文分析现有本质图像数据集存在的一些问题,如合成数据集受限于单个物体(shapeNet),不真实的光照(CG Animation),缺少细节以及低信噪比(SUNCG),而真实本质图像数据集是稀疏的(IIW和SAW),并且难以收集富集标签,作者在这篇论文中提出了一个高质量,高信噪比,真实的,仔细渲染的合成数据集CGI(基于SUNCG,拥有大于20000张图片并带有GT)。另外,作者用半监督学习方式来联合训练带标签的CGI以及无标签的IIW和SAW,最后在IIW以及SAW两种数据集下达到了SOTA。使用的网络还是基本的U-Net,如下图。
损失函数如下图,详细公式可以参考原论文。
相关资源:项目主页和代码
ICCV2017
A Joint Intrinsic-Extrinsic Prior Model for Retinex
这篇文章的主要特点在于首次将形状先验带入到Retinex中,提出了Local Variation deviation(LVD)的概念,通过将LVD作为形状先验来保护结构的完整性。然后联合纹理先验,光照先验以及重建损失构成最终的优化函数,求解最优解,与之前的retinex方法相比,达到了SOTA。(论文中S代表观测图像,I代表Illumination,R代表Reflectance) LVD可以分成两个部分来看,第一个部分是LV,即局部变化,代表的是梯度特征,然后第二部分是D,即偏差,指的是梯度的偏差。LVD可以看作是对局域梯度进行一种规范化,去除均值的影响,得到梯度变化的方差相关性,纹理是趋向于弱相关性的,而结构是趋向于强相关性的,LVD则正好对纹理和结构有非常强的鉴别能力。LVD的公式如下所示,这里的没有使用减去均值的绝对偏差,而采用的是相对偏差,相对偏差更能放大相关性差异。从下图中人物中纹理(蓝色方框)与结构(绿色方框)的在绝对偏差和相对偏差中数值可以看出,纹理和结构确实在LVD中有明显差别,而且使用相对偏差能够放大差异。
另外,文章还给出了纹理先验以及光照先验,纹理先验是保持反射图间断连续,则纹理先验可以形成如下公式:
黑通道先验是说在绝大多数非天空的局部区域内,某一些像素至少一个颜色通道具有很低的值,这是何凯明等人基于5000多张自然图像的统计得到的定理。作者根据公式推导出了亮通道先验,公式如下:
项目主页:https://caibolun.github.io/JieP/ 代码: https://github.com/caibolun/JieP