CVPR2023|Gated Stereo：如何利用多视角和TOF强度线索进行深度估计

计算机视觉工坊 | 2023-06-12 21:15:50 阅读：385

发布文章

论文题目：Gated Stereo: Joint Depth Estimation from Gated and Wide-Baseline Active Stereo Cues

作者：Stefanie Walz；Mario Bijelic；Andrea Ramazzina；Amanpreet Walia；Fahim Mannan等人

作者机构：Mercedes-Benz(梅赛德斯-奔驰)；Google Inc(普林斯顿大学)；Algolux(一家全球公认的计算机视觉公司)

论文链接：https://arxiv.org/pdf/2305.12955.pdf

项目代码：https://github.com/princeton-computational-imaging/GatedStereo

项目主页：https://light.princeton.edu/publication/gatedstereo/

Gated Stereo是一种高分辨率和长距离深度估计技术，可在活动门控立体图像上运行。使用主动和高动态范围的被动捕捉，Gated Stereo利用多视角线索以及来自主动门控的飞行时间强度线索。为此，作者提出了一种具有单眼和立体深度预测分支的深度估计方法，在最终融合阶段中将它们结合起来。

1 前言

本文提出了一种名为Gated Stereo的高分辨率和远距离深度估计技术，其基于活动门控立体图像进行运算。Gated Stereo通过利用多视角线索和来自活动门控的飞行时间强度线索，以及活动捕获和高动态范围的被动捕获，实现了立体深度信息的高效估计。为了实现这个目的，作者提出了一种具有单目和立体深度预测分支的深度估计方法，在最终的融合阶段组合这两个分支。每个块都通过监督和门控自监督损失的组合进行监督学习。为了便于训练和验证，作者获取了一组用于汽车场景的长距离同步门控立体数据集。研究发现，在距离160米以内的范围内，与最佳RGB立体方法相比，该方法的平均绝对误差（MAE）提高了50％以上，与现有的单目门控方法相比，MAE提高了74％。

具体来说，作者做出了以下贡献：

作者提出了一种新颖的深度估计方法，使用基于多视角和飞行时间深度线索的门控密集深度图。
作者引入了一个深度估计网络，其中包含两个不同的深度估计分支，一个单目分支和一个立体分支，分别使用主动和被动测量，并采用半监督训练方案来训练估计器。
作者构建了一个原型车来捕捉测试和训练数据，从而使作者能够在远距离汽车场景中评估该方法，在这些场景中，作者将MAE误差降低了50％，优于下一个最佳的RGB立体方法，并将其与现有的单目门控方法相比，对于距离最高达160米的情况，误差降低了74％。

2 相关背景

本文介绍了通过不同的传感器技术实现深度估计的方法，其中包括时飞传感器、单目/双目相机、LiDAR、闸门相机等。时飞传感器通过测量****到场景中并返回检测器的光的往返时间来获取深度信息。单目/双目相机的深度估计基于对图像的分析和处理。LiDAR通过激光****到场景中并返回激光束，通过测量回程时间和激光束扫描夹角来获取深度信息。闸门相机使用短时间光闸限制可视景深。虽然每种传感器技术都有其自身的优劣势，但它们都是在特定环境下实现深度估计的有效方式。

时飞传感器：

时飞传感器通过测量****到场景中的光的往返时间来获取深度信息，常用的包括相关时飞相机、脉冲时飞传感器和带宽度深度测量的闸门光照，其中相关时飞传感器通过波照射到场景中，根据****和接收光之间的相位差来估计深度，具有高精度和高空间分辨率的优点，但对环境光的敏感性较强，限制了其在室外场景中应用；而脉冲时飞传感器则通过直接测量从一个点反射回来的光的往返时间来获取深度信息，但局限于动态场景下的低空间分辨率并且容易受到恶劣天气影响。

单目/双目相机：

单目/双目相机常用的深度估计方法包括单张图像估计、稀疏LiDAR点云引导的单张图像估计、双目图像估计和基于双目相机和稀疏LiDAR的深度估计。单目深度估计通常适用于成本较低的嵌入式系统，具有的空间分辨率限制可以通过相机的高帧率来抵消，但缺点是无法解决深度估计尺度的歧义问题。双目深度估计可以通过多视点估计解决尺度歧义问题，但需要获取可靠的地面真实深度。对于深度估计，现有的方法主要采用有监督和无监督两种学习方法，有监督深度估计方法通常依靠ToF数据或多视图数据进行监督，但相应的密集地面真实深度数据比较难以获得；无监督深度估计方法通常利用多视图几何来进行自我监督学习。

深度闸门相机：

闸门相机通过控制光闸时间，只提取一定深度范围内的光来估计深度，常用的方法包括求解分析解、学习贝叶斯方法和深度神经网络方法。

3 Gated Stereo Imaging - 门控立体成像

本文介绍了一种名为门控立体成像的技术，该技术利用两个门控相机进行同步工作，通过单个光源照明的方式捕获三个同步的门控和被动切片。门控技术可以在2D图像中集成隐含的深度信息，同时可以通过校准消暗电流来调整强度计数，与环境光或其他光源的影响相比。通过对两个未被调制的被动暴露进行HDR获取，可以利用同一相机设置从被动立体强度线索中恢复深度，该系统每秒捕获120个图像，实现了每秒24个图像的更新，其更新速率约为最新商业扫描LiDAR系统的两倍。

4 Depth from Gated Stereo - 由门控视觉深度估计

在本文中，作者提出了一种利用门控图像的主动和被动多视图线索进行深度估计的方法。具体而言，作者引入了一个联合立体和单目网络，使用几个适用于门控立体数据的一致性损失对此网络进行半监督。接下来，作者首先描述所提出的网络架构，然后再描述半监督方案。

4.1 Joint Stereo-Mono Depth Network - 联合立体-单目深度网络

本文提出了一个联合立体-单目深度网络，该网络具有单目和立体分支以及最终的融合网络，将这些分支的输出组合起来生成最终的深度图。单目分支使用DPT架构输出绝对深度，而立体分支使用RAFT-Stereo和HRFormer网络提取高分辨率特征匹配视差。最终的联合深度图通过轻量级的ResUNet网络进行融合，旨在解决单目深度估计中的深度量化和立体深度估计中的遮挡等问题。

4.2 Depth and Photometric Consistency -深度和光度一致性

作者提出了一种用于自监督深度估计的新型系统，基于闸门光纤雷达技术，通过稀疏监督和自监督一致性损失来指导深度估计。其中，左右再投影一致性损失是指在已知视差的情况下，通过将左侧图像到右侧图像的映射来验证左右两侧图像的光学一致性，其中采用了基于结构相似度度量和L1范数的相似性损失。单目分支和立体分支分别用于对单个图像和立体图像进行深度估计。融合损失用于将单目和立体的深度估计结果合并。还有其他损失函数，如环形构建、边缘保留平滑以及点云监督损失。这些损失函数都通过调高和缩小具体系数影响整体训练。

4.3 Implementation Details - 实施细节

作者首先分别使用文中介绍的损失函数独立地优化单目和立体网络。单目和立体网络都使用相同的协议进行训练，使用ADAMW算法，其中β1 = 0.9，β2 = 0.999，学习率为，权重衰减为。最后，使用文中描述的损失函数训练融合网络，学习率为3 × ，训练5个epochs。使用η=0.05生成方程式4中提到的遮挡掩码。对于闸门一致性掩码，将γ设置为0.98，θ设置为0.04。所有模型的输入/输出分辨率均为1024×512。

5 数据集

作者描述了捕获用于训练和测试的长距离深度数据集。该数据集是在德国南部进行的超过一千公里的行驶数据收集活动期间获取的。作者为测试车辆配备了一个长距离的激光雷达系统（Velodyne VLS128），具有高达200米的范围，以及一台汽车RGB立体摄像头（On-Semi AR0230传感器）和一套带同步的NIR闸门立体摄像头设置（BrightWayVision）。所有传感器都安装在可携带的传感器立方体中，除了激光雷达传感器之外。RGB立体相机具有1920x1080像素的分辨率，并以30 Hz运行，捕获12位HDR图像。闸门相机以120 Hz帧率提供分辨率为1280x720的10位图像，我们将其分为三个切片和两个类似HDR的额外环境捕捉（没有主动照明）。作者在前拉钩上安装了两个垂直腔面****激光器（VCSEL）模块作为主动照明。激光以每个500W的峰值功率，808nm的波长和240-370ns的激光脉冲持续时间洪水般照亮场景。由于眼部安全法规的限制，最大峰值功率受到限制。安装的参考激光雷达系统以10 Hz运行，并产生128条线。所有传感器都经过校准和时间同步，该数据集包含在白天、夜间和不同天气条件下的107348个样本。经过场景多样性的子选择后，我们将数据集分为54320个样本进行训练，728个样本进行验证和2463个样本进行测试。

6 评估

本文提出了一个用于夜间、白天深度估计的新方法，并在实验证明了它的有效性。该方法与现有门控方法、单目RGB方法、立体RGB方法和单目+激光雷达方法进行了比较。实验结果表明，所提出的方法在日间和夜间条件下均取得了更好的效果，具有更高的长程深度预测准确率和更好的细节表现。对于所提出方法的贡献进行的消融实验表明，采用了不同的组成部分可以有效地降低MAE误差。具体地，单目分支、无源图像和有源片段的串联、环境感知一致性和提议的骨干网络、门控一致性损失和左右视图和灯光的变形损失以及单目和立体混合输出的融合阶段都可以降低MAE误差。

7 总结

本文提出了一种新的方法Gated Stereo，使用门控立体对预测稠密深度。通过利用主动和被动图像，该方法可以提取深度线索。对于立体线索和单眼门控提示的不足，该方案预测立体和每个摄像机的单眼深度，并将其融合以获得单个高质量的深度图。该方法经过半监督训练和验证，并在一个新的远程汽车数据集上得到了良好的效果，在立体RGB图像上实现的平均绝对深度误差比下一个最佳方法优50％，比下一个最佳现有门控方法优74％。未来该方法可以用于解决 LiDAR 系统无法解决的新颖三维视觉任务。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。