新闻  |   论坛  |   博客  |   在线研讨会
立体匹配 | DLNR还没来,先看EAI-stereo!
计算机视觉工坊 | 2023-05-20 17:24:58    阅读:259   发布文章

图片

论文题目EAI-Stereo: Error Aware Iterative Network for Stereo Matching

作者:Haoliang Zhao ;Huizhou Zhou

作者机构:北京大学深圳研究生院赵勇团队诡谷子人工智能开放实验室

论文链接:https://openaccess.thecvf.com/content/ACCV2022/papers/Zhao_EAI-Stereo_Error_Aware_Iterative_Network_for_Stereo_Matching_ACCV_2022_paper.pdf

项目代码:https://github.com/David-Zhao-1997/EAI-Stereo(论文中提到的开源代码已经没有了)

GitHub代码:https://github.com/smartadpole/EAI-Stereo(这里是GitHub中开源的EAI-stereo)

由诡谷子AI开放实验室开发的双目视觉立体匹配算法EAIStereo ( EAI-Stereo: Error aware iterative network for stereo matching),针对立体匹配算法中未充分利用高频信息而导致相对模糊的问题,提出了一种误差感知细化模块,将来自原始图像的高频信息结合进来进行误差校正,生成出精细的细节和尖锐的边缘。另外,为了提高数据传输效率,作者还提出了迭代多尺度宽式长短时记忆网络。实验证明,该方法在多个数据集上取得了良好的效果,并且在 Middlebury 排行榜和 ETH3D 立体基准测试上表现出色。

1 前言

估计像素对应关系的问题是立体匹配的任务。传统立体匹配算法有四步骤:匹配代价计算、代价聚合、视差计算和优化。学习式方法与传统方法相比,通常产生更准确和平滑的视差图,并具有较高的计算速度。其中一些挑战是恢复薄物体和锐利边缘的低效率问题、基于GRU的迭代结构的不足和学习方法的推广能力问题。EAI-Stereo是解决这个问题的方法,它使用了一种误差感知的迭代结构。

本文提出了一种新的端到端数据驱动的立体匹配方法EAI-Stereo(Error Aware Iterative Stereo)。本文的主要贡献如下:

  • 提出了一种错误感知的细化模块,它将左右变形与基于学习的上采样相结合。通过将包含更多高频信息的原始左图像和显式计算误差图相结合,文章的细化模块使网络能够更好地应对过度曝光、欠曝光以及弱纹理,并允许网络学习纠错能力,从而使EAI-Stereo能够产生极端细节和锐利边缘。模块中的基于学习的上采样方法与双线性插值相比,可以提供更精细的上采样结果。作者仔细研究了模块微观结构对性能的影响。从实验中,作者发现该结构可以提高泛化能力并提高性能。该方法具有很高的通用性,可以应用于所有产生视差或深度图的模型。

  • 提出了一种高效的迭代更新模块,称为Multiscale Wide-LSTM,它可以有效地将来自特征提取、代价体积和当前状态的多尺度信息相结合,从而增强每次迭代之间的信息传递。

  • 提出了一种灵活的整体结构,可以平衡推理速度和准确性。可以在不重新训练网络甚至在运行时进行权衡。迭代次数也可以根据最小帧速率动态确定。

2 相关背景

立体匹配领域中的数据驱动方法占据了主导地位。为了提高准确性,许多研究者采用了3D卷积和金字塔结构。为了降低计算成本,一些方法使用新的方式避免了使用3D卷积。一些其他的新方法,例如引入域归一化和基于非局部图的滤波器,都提高了网络的准确性和泛化能力。这些方法极大地促进了立体视觉领域的发展,并在立体匹配任务上取得了很高的性能。

随着深度学习的发展,迭代神经网络在立体匹配和光流场估计等领域中得到了广泛应用。人们通过改进迭代模块,利用较小的网络替换单个重量级前馈网络。这种方法大大降低了计算复杂度。同时,改进的迭代模块在立体匹配中也取得了更好的性能。现有的GRU也逐渐成为迭代模型中的瓶颈,因此需要更好的迭代模块来进一步提高性能。

3 方法

本文的网络将一对矫正后的图像Il和Ir作为输入。然后提取特征并将其注入成本体积中。多尺度迭代模块从成本体积中检索数据并迭代更新视差图。最后,迭代的1/4分辨率视差图被馈送到错误感知细化模块中,该模块可以执行学习的上采样和错误感知纠正以获得最终的视差图。

3.1  Multi-scale Feature Extractor - 多尺度特征提取器

在这一部分,作者使用类似ResNet的网络作为特征提取器,利用两个共享权重的提取器提取一对图像Il和Ir的特征图,用于构建3D相关体积,遵循RAFT-Stereo的方法。该网络由一系列残差块组成,然后是两个下采样层,用于提供多尺度信息Fh,Fm和Fl给接下来的迭代宽LSTM模块。特征图Fh,Fm和Fl的空间大小是原始输入图像尺寸的1/4、1/8和1/16。

图片3.2  Iterative Multiscale Wide-LSTM Network - 迭代多尺度Wide-LSTM网络

在这一部分,作者提出了一种高效的迭代更新模块,称为Multiscale Wide-LSTM,可以有效地结合特征提取、成本体积和当前状态的信息,并提高每次迭代之间的信息传递。多尺度迭代模块,扩展了迭代模块的宽度,三个子模块各自建立了两条数据路径C和h,连接前后迭代模块,更高效地进行信息传递。采用多尺度的优势在于可以在每个尺度上使用不同的迭代子模块,而较低分辨率的特征图像素较少,可以执行比较耗时的操作。

图片图片3.3.  Error Aware Refinement - 错误感知细化

在这一部分,作者提出了一种Error Aware Refinement模型,主要解决了传统模型忽略高频信息的问题,提高了模型的精度和细节保留能力。具体来说,模型首先使用learned upsampling将LSTM网络预测的1/4分辨率的原始视差图上采样,再使用卷积层生成一个上采样mask,并利用凸上采样方法得到与原始图像大小相同的视差图。然后,在Error Aware模块中,模型通过误差感知,利用右图像进行重建,计算出误差地图,再与左图像一起送入Hourglass模型中进行细化操作,最终得到最终的视差图。在整个模型过程中,考虑了不同形式的误差信息的融合,并在微结构上进行了优化,提高了模型的性能表现。

4 实验4.1 模型训练

本文中的EAI-Stereo模型基于PyTorch实现,使用两个Tesla A100 GPU进行训练。所有模型均使用AdamW优化器进行训练,权重衰减为 。学习率的预热阶段占整个训练计划的1%。在所有实验中,我们使用数据增强方法,其中包括饱和度变化、图像扰动和随机尺度。在所有预训练中,我们使用了Scene Flow数据集进行200k次迭代的训练,学习率为 。

4.2 评估

EAI-Stereo在三个不同的视觉数据集上(Middlebury、ETH3D、KITTI-2015)的表现在多个指标上表现最佳。在KITTI-2015数据集上,作者的方法通过在另一个数据集上的预训练和微调,在稀疏Ground Truth值上也有良好表现。该的方法在进行简单的数据增强时也展现出了强大的泛化性能。

图片图片图片4.3  Cross-domain Generalization - 跨领域泛化

作者使用与预训练完全相同的策略在Scene Flow数据集上训练我们的模型,然后直接使用权重进行评估。将EAI-stereo的模型与一些最先进的方法和一些经典方法进行了比较。比较表明,该的方法在泛化性能方面明显优于专门为泛化性能设计的DSMNet和CFNet,且可以通过使用预训练和微调等简单策略来提高模型的性能。

4.4  Ablations - 消融研究

评估了使用不同设置的EAI-Stereo的性能,包括不同的体系结构和不同数量的迭代。在迭代多尺度Wide-LSTM网络中,使用宽LSTM模块可以显著提高性能,其D1误差可以减少10.14%,EPE可以减少4.80%。错误感知细化模块用于上采样和细化工作。与宽LSTM基准相比,采用扩张细化可以减少Scene Flow验证集上的D1误差2.81%,并使KITTI验证集上的EPE减少12.39%。迭代次数可以通过训练后调整,因此提高了模型的灵活性。在实际应用中,可以通过给定最低帧速率来推断迭代次数,在具有实时要求的场景中非常有用。

5 总结

作者提出了一种新颖的误差感知迭代网络用于立体匹配。进行了多次实验以确定模块的结构。实验结果表明,该模型在速度和准确性方面在各种数据集上表现良好,同时具有很强的泛化性能。

图片图片

本文仅做学术分享,如有侵权,请联系删文。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客