立体匹配 | DLNR还没来，先看EAI-stereo!

计算机视觉工坊 | 2023-05-20 17:24:58 阅读：449

论文题目：EAI-Stereo: Error Aware Iterative Network for Stereo Matching

作者：Haoliang Zhao ；Huizhou Zhou

作者机构：北京大学深圳研究生院赵勇团队诡谷子人工智能开放实验室

论文链接：https://openaccess.thecvf.com/content/ACCV2022/papers/Zhao_EAI-Stereo_Error_Aware_Iterative_Network_for_Stereo_Matching_ACCV_2022_paper.pdf

项目代码：https://github.com/David-Zhao-1997/EAI-Stereo（论文中提到的开源代码已经没有了）

GitHub代码：https://github.com/smartadpole/EAI-Stereo（这里是GitHub中开源的EAI-stereo）

由诡谷子AI开放实验室开发的双目视觉立体匹配算法EAIStereo ( EAI-Stereo: Error aware iterative network for stereo matching)，针对立体匹配算法中未充分利用高频信息而导致相对模糊的问题，提出了一种误差感知细化模块，将来自原始图像的高频信息结合进来进行误差校正，生成出精细的细节和尖锐的边缘。另外，为了提高数据传输效率，作者还提出了迭代多尺度宽式长短时记忆网络。实验证明，该方法在多个数据集上取得了良好的效果，并且在 Middlebury 排行榜和 ETH3D 立体基准测试上表现出色。

1 前言

估计像素对应关系的问题是立体匹配的任务。传统立体匹配算法有四步骤：匹配代价计算、代价聚合、视差计算和优化。学习式方法与传统方法相比，通常产生更准确和平滑的视差图，并具有较高的计算速度。其中一些挑战是恢复薄物体和锐利边缘的低效率问题、基于GRU的迭代结构的不足和学习方法的推广能力问题。EAI-Stereo是解决这个问题的方法，它使用了一种误差感知的迭代结构。

本文提出了一种新的端到端数据驱动的立体匹配方法EAI-Stereo（Error Aware Iterative Stereo）。本文的主要贡献如下：

提出了一种错误感知的细化模块，它将左右变形与基于学习的上采样相结合。通过将包含更多高频信息的原始左图像和显式计算误差图相结合，文章的细化模块使网络能够更好地应对过度曝光、欠曝光以及弱纹理，并允许网络学习纠错能力，从而使EAI-Stereo能够产生极端细节和锐利边缘。模块中的基于学习的上采样方法与双线性插值相比，可以提供更精细的上采样结果。作者仔细研究了模块微观结构对性能的影响。从实验中，作者发现该结构可以提高泛化能力并提高性能。该方法具有很高的通用性，可以应用于所有产生视差或深度图的模型。
提出了一种高效的迭代更新模块，称为Multiscale Wide-LSTM，它可以有效地将来自特征提取、代价体积和当前状态的多尺度信息相结合，从而增强每次迭代之间的信息传递。
提出了一种灵活的整体结构，可以平衡推理速度和准确性。可以在不重新训练网络甚至在运行时进行权衡。迭代次数也可以根据最小帧速率动态确定。

2 相关背景

立体匹配领域中的数据驱动方法占据了主导地位。为了提高准确性，许多研究者采用了3D卷积和金字塔结构。为了降低计算成本，一些方法使用新的方式避免了使用3D卷积。一些其他的新方法，例如引入域归一化和基于非局部图的滤波器，都提高了网络的准确性和泛化能力。这些方法极大地促进了立体视觉领域的发展，并在立体匹配任务上取得了很高的性能。

随着深度学习的发展，迭代神经网络在立体匹配和光流场估计等领域中得到了广泛应用。人们通过改进迭代模块，利用较小的网络替换单个重量级前馈网络。这种方法大大降低了计算复杂度。同时，改进的迭代模块在立体匹配中也取得了更好的性能。现有的GRU也逐渐成为迭代模型中的瓶颈，因此需要更好的迭代模块来进一步提高性能。

3 方法

本文的网络将一对矫正后的图像Il和Ir作为输入。然后提取特征并将其注入成本体积中。多尺度迭代模块从成本体积中检索数据并迭代更新视差图。最后，迭代的1/4分辨率视差图被馈送到错误感知细化模块中，该模块可以执行学习的上采样和错误感知纠正以获得最终的视差图。

3.1 Multi-scale Feature Extractor - 多尺度特征提取器

在这一部分，作者使用类似ResNet的网络作为特征提取器，利用两个共享权重的提取器提取一对图像Il和Ir的特征图，用于构建3D相关体积，遵循RAFT-Stereo的方法。该网络由一系列残差块组成，然后是两个下采样层，用于提供多尺度信息Fh，Fm和Fl给接下来的迭代宽LSTM模块。特征图Fh，Fm和Fl的空间大小是原始输入图像尺寸的1/4、1/8和1/16。

3.2 Iterative Multiscale Wide-LSTM Network - 迭代多尺度Wide-LSTM网络

在这一部分，作者提出了一种高效的迭代更新模块，称为Multiscale Wide-LSTM，可以有效地结合特征提取、成本体积和当前状态的信息，并提高每次迭代之间的信息传递。多尺度迭代模块，扩展了迭代模块的宽度，三个子模块各自建立了两条数据路径C和h，连接前后迭代模块，更高效地进行信息传递。采用多尺度的优势在于可以在每个尺度上使用不同的迭代子模块，而较低分辨率的特征图像素较少，可以执行比较耗时的操作。

3.3. Error Aware Refinement - 错误感知细化

在这一部分，作者提出了一种Error Aware Refinement模型，主要解决了传统模型忽略高频信息的问题，提高了模型的精度和细节保留能力。具体来说，模型首先使用learned upsampling将LSTM网络预测的1/4分辨率的原始视差图上采样，再使用卷积层生成一个上采样mask，并利用凸上采样方法得到与原始图像大小相同的视差图。然后，在Error Aware模块中，模型通过误差感知，利用右图像进行重建，计算出误差地图，再与左图像一起送入Hourglass模型中进行细化操作，最终得到最终的视差图。在整个模型过程中，考虑了不同形式的误差信息的融合，并在微结构上进行了优化，提高了模型的性能表现。

4 实验4.1 模型训练

本文中的EAI-Stereo模型基于PyTorch实现，使用两个Tesla A100 GPU进行训练。所有模型均使用AdamW优化器进行训练，权重衰减为。学习率的预热阶段占整个训练计划的1%。在所有实验中，我们使用数据增强方法，其中包括饱和度变化、图像扰动和随机尺度。在所有预训练中，我们使用了Scene Flow数据集进行200k次迭代的训练，学习率为。

4.2 评估

EAI-Stereo在三个不同的视觉数据集上（Middlebury、ETH3D、KITTI-2015）的表现在多个指标上表现最佳。在KITTI-2015数据集上，作者的方法通过在另一个数据集上的预训练和微调，在稀疏Ground Truth值上也有良好表现。该的方法在进行简单的数据增强时也展现出了强大的泛化性能。

4.3 Cross-domain Generalization - 跨领域泛化

作者使用与预训练完全相同的策略在Scene Flow数据集上训练我们的模型，然后直接使用权重进行评估。将EAI-stereo的模型与一些最先进的方法和一些经典方法进行了比较。比较表明，该的方法在泛化性能方面明显优于专门为泛化性能设计的DSMNet和CFNet，且可以通过使用预训练和微调等简单策略来提高模型的性能。

4.4 Ablations - 消融研究

评估了使用不同设置的EAI-Stereo的性能，包括不同的体系结构和不同数量的迭代。在迭代多尺度Wide-LSTM网络中，使用宽LSTM模块可以显著提高性能，其D1误差可以减少10.14％，EPE可以减少4.80％。错误感知细化模块用于上采样和细化工作。与宽LSTM基准相比，采用扩张细化可以减少Scene Flow验证集上的D1误差2.81％，并使KITTI验证集上的EPE减少12.39％。迭代次数可以通过训练后调整，因此提高了模型的灵活性。在实际应用中，可以通过给定最低帧速率来推断迭代次数，在具有实时要求的场景中非常有用。

5 总结

作者提出了一种新颖的误差感知迭代网络用于立体匹配。进行了多次实验以确定模块的结构。实验结果表明，该模型在速度和准确性方面在各种数据集上表现良好，同时具有很强的泛化性能。

本文仅做学术分享，如有侵权，请联系删文。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。