摘要:
由于超表面对入射光的相位、偏振和振幅的极端控制,因此具有革新成像技术的潜力。它们依靠增强的光的局部相互作用来实现所需的相位轮廓。由于光的局部相互作用增强,超表面是高度色散的。这种强分散被认为是实现常规超表面成像的主要限制。在这里,我们认为这种强色散为计算成像的设计自由度增加了一个程度,潜在地打开了新的应用。特别是,我们利用超表面的这种强分散特性,提出了一种紧凑、单镜头、被动的3D成像相机。我们的设备由一个金属工程,聚焦不同的波长在不同的深度和两个深度网络,恢复深度和RGB纹理信息从彩色,散焦图像获得的系统。与其他基于元表面的3D传感器相比,我们的设计可以在更大的视场(FOV)全可见范围内运行,并可能生成复杂3D场景的密集深度图。我们对直径为1毫米的金属的模拟结果表明,它能够捕获0.12到0.6米范围内的3D深度和纹理信息。
超表面已经成为传统衍射光学的有力替代品。1−6与衍射光学器件类似,超表面由二维光散射体阵列(称为元元素)组成。然而,它们的相位梯度并不是通过光的传播产生渐变的相位变化。相反,由于光在每个元元素上的局部相互作用增强,相位不连续性使所需的相位梯度成为可能。这种增强的局部光相互作用改变了亚波长尺度入射光的相位,允许功能复用和增加设计灵活性(如图1a所示)。超表面的这些独特方面使其紧凑,适合许多功能,包括3D成像。8−11不幸的是,超表面也会导致频率相关的相位不连续性,导致比衍射光学更强的色散。例如,一种设计为532 nm波长的金属,在612和452 nm波长处显示出显著不同的点扩散函数(PSF),如图1b所示。这种强烈的色散被认为是传统成像技术的主要局限性。计算光学提供了一种克服强色散的途径。在最近的第一个关于超表面计算成像的报告中,超光学和图像后处理结合起来实现了在全可见光范围内的白光直接成像随后的工作扩展了这些技术,以实现同时消色差、变焦成像在这里,继这些和其他最近的作品之后,我们认为强超表面弥散是计算成像设计自由度的一个附加程度,有可能打开新的应用。特别地,我们利用超表面的强色散和高设计灵活性,将它们与计算光学相结合来演示三维成像。
与典型的3D成像技术相比,基于20 - 26元表面的3D相机可以是紧凑的、单镜头的、无源的,不需要主动光源或多视点/曝光。它们使3D相机小型化,可以应用于低成本和复杂的移动或可穿戴平台。先验的基于元表面的3D相机通常基于离焦深度(DFD)技术。在DFD中,图像在不同的离焦水平上被捕获,并从中恢复深度信息。28−33在这种情况下,单个超表面可能由不同焦距的交错金属组成另外,两个相邻的超表面,一个与深度相关,另一个与深度相关,可以恢复深度信息。这两种系统都继承了视场(FOV)的限制,都是为单波长工作而设计的。因此,它们的光效率是有限的,这不利于低功率或能源受限的应用。最近,基于超表面透镜的成像技术已经被提出用于全彩成像和深度估计。然而,这样的实现需要一个额外的主镜头(以及金属阵列),使得它们在设计上更复杂,比基于dfd的3D相机更小。
在本文中,我们首次提出了一种基于超表面的3D成像系统,该系统可在全可见光谱(380 - 700 nm)下工作。我们的系统概述如图1c所示。受先前工作的启发,36我们利用了这样一个事实,即大多数现实世界物体的反射光谱都足够宽37,可以同时获得纹理和深度的二维图像。我们的系统由一个光学超表面组成,聚焦不同中心波长(460、530和620 nm)的红、绿、蓝(RGB)光在不同深度。一个位于距离超表面固定距离的传感器一次性捕获RGB图像。因此,三个通道的捕获图像散焦不同,并对物体深度的变化敏感。我们利用捕获图像的色差,使用两个基于u - net30,38,40的卷积神经网络(CNN)来创建深度地图和尖锐的RGB图像重建。深度网络隐式地从空间模糊和先验统计中学习三维信息,并能产生精确的密集重建。
■ METASURFACE DESIGN
我们的超表面是由三个多路复合金属组成,每个目标波长具有不同的焦距fc,如图2a所示。C∈{r, g, b}表示中心波长λc = {620nm, 530 nm, 460 nm}的目标通道。各色道的金属相图如下:
其中(x, y)为金属上的空间坐标。我们在空间上交错放置三个金属元素,分别对应红、绿、蓝通道。ϕr(x, y, λr)、ϕg(x, y, λg)和ϕb(x, y, λb)在空间上交错分布,得到整体的相位轮廓Φ(x, y),如图2b所示。
上述相位曲线可由许多纳米光子设计实现为了简单起见,我们设计了一个使用几何相位来实现所需相位轮廓的元表面我们的超表面采用输入左圆偏振光和输出右圆偏振光,如图2c所示。这个超表面的波长和深度依赖点扩散函数如图2d所示。
为了设计单个元单元,我们采用全波时域有限差分(FDTD)模拟。基本超表面单元包含二氧化钛纳米鳍在二氧化硅衬底上,如图3a所示。通过改变纳米鳍的几何参数,我们设计了单个单元的相位跳变。二氧化硅42和二氧化钛43的光学常数取自文献,背景指数为1。我们利用元单元的几何相位来控制元单元的相位不连续。在这种结构中,每个纳米鳍充当半波片,改变入射圆偏振光的螺旋度。通过将纳米鳍按θ角旋转,将入射圆偏振光转化为相反的螺旋度,并赋予φ = 2θ的相位。利用这种方法,我们可以实现超表面操作所需的全部2π相范围。因为我们试图设计超表面透镜的焦距来处理红、绿、蓝三种光,所以纳米鳍被设计为在目标波长最大限度地提高效率,同时抑制其他波长的透射。我们设计纳米鳍以最大限度地提高偏振转换效率,其定义为输出螺旋度光的透射功率除以总入射功率,如下所示(假设LCP入射光)。
对于蓝色通道,优化的纳米鳍参数为L = 160 nm, W = 90 nm;L = 290 nm, W = 60 nm为绿色通道;红色通道L = 380 nm, W = 90 nm。在所有情况下,H = 600 nm和P = 400 nm。这种几何结构使得每个通道在目标波长处的PCE最大,如图3b所示。相位和PCE与每个目标波长的纳米鳍旋转角度绘制在图3c中。这些参数可用于实现所设计的相位轮廓和系统psf的仿真。
■ 3D RECONSTRUCTION
我们的系统将红、绿、蓝光聚焦在不同的深度上,实现了对捕获的3D场景RGB图像的深度预测和纹理重建。我们利用两个独立的深度网络进行三维重建。网络训练过程的流水线如图4所示。从概念上讲,PSF仿真包括三个步骤:(a) PSF仿真,在zr ~ zb深度范围内的21个离散样本上对RGB通道的系统PSF进行仿真(使用全波仿真获得的参数);(b)图像渲染,传感器捕获的图像被渲染为全聚焦图像和依赖深度和颜色的PSF的卷积;(c)深度和RGB重建,利用基于U-Net的深度网络从捕获的图像重建深度图和RGB图像。
我们首先基于傅里叶光学模拟了不同深度下的psf 超表面纳米鳍在空间上调制入射光在每个波长的波前。 这种空间调制由T_{lambda}(x, y)描述,定义如下:
T_{lambda}(x, y)=A(x, y) sqrt{operatorname{PCE}_{lambda}(x, y)} exp left(j Phi_{lambda}(x, y)right)
这里,A(x, y)是一个圆孔径函数,在超表面直径范围内为1,其他地方为0。
sqrt{operatorname{PCE}_{lambda}(x, y)}和Phi_{lambda}(x, y) 是位于(x, y)的元元件引起的极化转换效率平方根和相位的变化,它们是通过全波模拟得到的。 由于超表面色散,不同波长的透射效率和相移存在差异。 系统PSF P_{lambda, z} ,z是波长λ和距离亚表面平面z的点光源的响应。 我们在菲涅耳近似下使用光场传播方法得到PSF,假设λ≪z。
其中z’为金属与传感器之间的距离,(x’,y’)为传感器平面上的坐标。 然后,利用颜色传感器λ的光谱响应将计算得到的光谱PSFs转换为颜色PSFs。
不同深度的彩色psf模拟如图4所示。
RGBD Rendering.
捕获的图像随后被渲染给模拟的psf、全聚焦RGB图像和深度地图。 全聚焦图像是指针孔摄像机捕捉到的三维场景图像,被认为是RGB图像的ground truth。 类似于DOE中基于PSF的图像形成,30,40,45我们将3D场景视为一组不同深度的分割层,并将每一层I_{c, z} 与相应的PSF P_{c, z^{prime}} 进行卷积。 每个通道的渲染图像I_{c}^{prime} 被计算为 :
I_{c}^{prime}=sum_{z} I_{c, z} * P_{c, z} text { noise }
其中*表示卷积算子。 为了考虑噪声的影响,我们采用了基于光圈大小、光照水平和曝光时间的标准偏差的加性高斯噪声。
Reconstruction Networks.
我们使用两个独立的网络重建深度和RGB纹理图像。 深度预测网络,如图4所示,有一个可以预测像素大小的深度地图的编码器-解码器架构 它以三通道捕获的RGB图像作为输入,输出具有相同分辨率的单通道深度图。 纹理重建网络基于改进的残差u - net38,39,其中学习编码图像与地面真实图像(即残差图像,鼓励高频信息恢复)之间的差异。 这种残差学习技术已被证明在全聚焦图像重建中有良好的性能(网络架构的细节在支持信息中提供)。 在训练过程中,通过反向传播深度预测损失和RGB纹理重建来更新网络参数。 我们对估计的RGB图像Î和预测的深度z强制均方根误差。一个̂基于梯度的正则化损失用于深度估计,以鼓励更清晰的边界。
begin{array}{l} text { loss_depth }=frac{1}{sqrt{N}}left(|z-hat{z}|_{2} alpha|nabla hat{z}|_{2}right) \ text { loss_RGB }=frac{1}{sqrt{M}}|I-hat{I}|_{2} end{array}
其中,∇是空间梯度算子,α是梯度损失的权重,M和N是RGB图像和差值图中的像素个数。
Implementation Details.
在训练期间,psf在视差(即逆深度)空间的21个离散深度和可见范围内的17个波长(20 nm间隔内的380 nm-700 nm)上进行模拟。 利用彩色Sony IMX183 CMOS传感器的光谱响应,将光谱psf转换为彩色psf,如eq 5所示。 在图像调制中,我们采用标准差为σ = 0.01的高斯噪声。 重建网络在scenflow数据集上进行端到端训练,46是一个合成数据集,由密集的地面真实视差图(使我们的RGBD渲染成为可能)组成,用于35,454幅训练图像和4370幅测试图像。 我们使用“cleanpass”子集,只使用全聚焦图像(随机裁剪成256 × 256的大小)来模拟我们的相机设置中捕捉到的图像。 在GeForce RTX 2080 Ti gpu上,使用Adam optimizer47 (β1 = 0.9, β2 = 0.999)批量大小为21,用于50个epoch的网络参数进行优化。 梯度损失的正则化权重为α = 1。
Results.
深度和RGB纹理重建仿真结果如图5和图6所示。我们还将我们的金属与传统透镜进行了比较,在这种情况下,波长依赖性相当小。传统的透镜与我们的金属透镜(绿光中心为540 nm)具有相同的焦距(44.5 mm)和相同的聚焦深度(0.2 m)。特别是,它的目的是有一个二次高度剖面:
h(x, y)left(n_{g}-1right)=left(sqrt{x^{2} y^{2} f_{g}^{2}}-f_{g}right)
(没有包装阶段),fg = 44.5毫米焦距和ng = 1.52折射率在540海里。传统透镜的特征尺寸都比波长大得多(不像基于超表面的设计)。因此,这种传统透镜中的色散仅来自于材料色散。对于大多数透明的材料来说,材料分散是一个小的影响。另一方面,超表面可以有更大的分散。超表面依赖于光与亚波长尺度纳米结构的共振相互作用。共振是窄带特性,因此使超表面高度色散。此外,超表面的窄带操作允许交错和波长特定的设计。在我们的例子中,我们把元元素交织成三种不同的金属。每一种金属在不同的深度聚焦不同的设计波长,从而最大化效率(在我们的案例中,偏振转换效率),同时抑制其他波长的透射(如图3b所示)。这种自由度是传统镜头无法达到的。因此,超表面的使用为我们提供了一种预测3D场景深度信息的方法,比传统镜头具有更高的精度。常规透镜与我们方法的重建结果对比如图5所示。我们采用相同的基于psf的RGBD渲染程序来模拟其捕获的图像,采用相同的基于U-Net的网络来估计深度和RGB图像。定量评价,峰值信噪比(PSNR)和结构相似度(SSIM)是用于纹理重建(越高越好),48岁,平均绝对误差(MAE)和归一化美(NMAE,绝对误差除以其地面真理)采用深度预测(越低越好)。我们设计的金属在深度预测精度上优于传统透镜,并在RGB纹理重建方面保持相似的性能。常规透镜和金属的平均重建性能(在测试数据集之上)总结如图6c所示。为了进一步分析我们的金属的深度预测精度,我们在图6b中显示了预测深度作为地面真实深度的函数的装箱散点图。图中显示,大多数预测深度(深蓝色)徘徊在真实深度的±5%以内。对于无纹理或颜色不平衡的物体(浅蓝色)的少量深度预测超出了±5%的范围,因为没有纹理或颜色信息的物体无法获得色散线索。图6a显示了更多不同场景的仿真结果。
与之前的两个设计相反,我们的金属空间多路复用三个透镜相位轮廓在不同的波长设计不同的焦距。因此,我们的设计使单镜头操作在整个可见光谱具有高传输效率。与单色系统相比,宽带操作提高了光效率和信噪比(SNR),并使我们能够重建场景的RGB彩色图像。此外,与之前的深度传感器系统相比,我们的设计具有优势。早期的设计是基于两个相邻的非重叠图像,8,9需要一个大的传感器和/或限制视场(FOV)。在我们的系统中,传感器只捕获一幅图像,同时进行深度估计和RGB重建。此外,大多数现实世界的物体的反射光谱是足够宽频的,因此,我们的技术是通用的,适用于现实世界的情况
■ SUMMARY AND CONCLUSION
提出了一种在颜色空间中编码深度信息的金属三维传感器,即不同波长聚焦于不同深度的传感器。我们利用金属的强色散来实现整个可见光谱的三维成像功能。与其他基于金属的3D成像相比,这种彩色编码消除了光谱带宽和视场的限制,提高了能源效率,并与各种孔径设计兼容。我们的设计建立在先前的实验演示的基础上,利用色散来扩展成像设备的视场深度与过去的工作类似,我们利用了现实世界中大多数物体的反射光谱是宽带的这一事实。因此,典型的捕获场景包含了足够的信息来同时进行深度和纹理重建。
此外,我们利用重建深度网络同时估计三维场景的深度和纹理信息。与传统的反褶积方法相比,深度网络提供了更可靠的复杂场景的密集三维重建。此外,深度网络可以处理透明物体或无纹理区域等情况,这对反褶积技术是一个挑战尽管我们的方法有优势,但仍然存在一些挑战。这些技术包括重建大的无纹理区域和反射光谱中具有尖锐特征的物体。对于较大的深度值,由于网络从离焦模糊的角度估计深度,且离焦相位随深度呈反比变化,因此预测精度往往较低。此外,我们的金属是为圆偏振光设计的,与标量衍射透镜(偏振不敏感)相比,限制了能量效率。然而,它可以以更高的精度重建三维信息,使其适用于低功耗应用。然而,优化元表面和系统设计可以显著减轻这些限制。可能的方法包括探索偏振不敏感的元元素,调整红、绿、蓝金属的焦距,以及使用端到端学习技术来联合优化光学和计算组件。
总的来说,我们首次提出了一种在一个镜头内实现整个可见光谱的3D成像的策略。我们利用超表面的强色散,并将其与计算光学相结合来实现三维成像。我们的方法可以适应各种深度范围。在这里,我们演示了使用1mm孔径的深度范围为0.12 - 0.6 m的设计。仿真结果表明,与传统的基于透镜的技术相比,深度预测精度有显著提高。这项工作展示了计算光学如何将超表面的缺点(强色散)转化为适用于移动或可穿戴平台的新功能。