挑战传统！首个数据驱动的事件相机特征追踪框架横空出世！（2）

计算机视觉工坊 | 2023-08-19 19:57:42 阅读：3416

4 实验4.1 Implementation4.1.1 数据集

本文在常用的事件相机数据集EC（参考论文：The event-camera dataset and simulator: Event-based data for pose estimation, visual odometry, and SLAM）上比较了提出的数据驱动跟踪模型，该数据集包括APS帧（24 Hz）和分辨率为240 × 180的事件，使用DAVIS240C相机记录。此外，该数据集利用外部运动捕捉系统以200 Hz的速率提供实际的相机姿态。此外，为了在更新的传感器设置下评估跟踪性能，本文在新发布的Event-aided Direct Sparse Odometry（EDS）数据集（参考文献：Event-aided Direct Sparse odometry）上测试了本文的方法。与EC数据集相比，EDS数据集包含更高分辨率的帧和事件（640×480像素）。与EC数据集类似，它包含了来自外部运动捕捉系统的150 Hz速率的真实姿态。由于EDS和EC的主要目的是评估相机位姿估计，因此两个数据集中的大多数场景都是静态的。

4.1.2 评价指标

为了评估不同的特征跟踪模型，本文首先用Harris角点检测器对每个序列提取特征。在初始特征集的基础上，每个被测跟踪模型根据其特定的更新率预测特征位移。遗憾的是，EDS和EC这两个数据集没有可以作为真值的特征轨迹。为了评估没有真值的特征跟踪模型，先前的工作使用基于帧的KLT跟踪模型预测的轨迹作为真值。相反，为了提高KLT轨迹的精度，基于本文提出的位姿监督方法设计评估方案。具体来说，作为真实值的轨迹是通过使用相机实际的姿态对KLT轨迹进行三角剖分，然后将其重新投影到每个选定的目标帧中得到的。对KLT轨迹进行三角剖分的好处是KLT的微小跟踪误差可以被滤除，从而得到几何一致的真实轨迹。为了验证所提出的评估方法，本文进行了一个真实特征轨迹可得的仿真实验。在这个模拟实验中，本文计算了KLT重投影误差与真实特征轨迹之间的皮尔森相关系数，其值为0.716。这表明本文提出的评估方案与真实特征轨迹之间存在显著的相关性，验证了本文的评估方案的有效性。由于每个测试的跟踪模型都有其更新率，因此本文对所有特征轨迹进行线性插值，保证与真实姿势时间步长相同，以计算评估指标。此外，为了有效测试方法基于事件的跟踪能力，本文在评估期间不更新特征模板。此外，我们停用所有终端标准并报告特征与真实值超过一定距离的时间，称为 Feature Age（FA）。本文没有像之前的工作那样选择一个错误阈值，而是以1像素的步长评估1-31像素范围内的多个错误阈值的轨迹。因此，不报告端点误差，因为使用不同的误差阈值测试每个轨迹，这有效地将距离误差纳入 FA 中。作为第一个性能指标，本文计算由真实轨迹持续时间归一化的跟踪 FA，以考虑不同的轨迹长度。。然而，由于一些特征轨迹在开始时被丢弃掉，本文展示稳定轨迹的 FA。第二个误差度量通过稳定轨迹和真实轨迹之间比率来表示被丢失的轨迹。然后将该比率乘以 FA，计算的结果作为第二个性能指标。该指标结合了方法跟踪的特征轨迹的质量和数量。

4.1.3 模型训练

首先在有3000个特征轨迹的Multiflow数据集上使用ADAM优化器进行模型训练。学习率设置为。最初从 4 个unroll step开始，在 80000 和 120000 个训练步后，逐渐将unroll step分别增加到 16 和 24。在Multiflow数据集上训练完成之后，使用本文提出的监督方法进行700次优化迭代进行参数的微调。在达到指定训练次数时学习率降低至。这些数据集不用于评估。

4.2 Benchmark Results - 基准测试结果4.2.1 Baselines

本文将本文的方法与当前最先进的方法 EKLT 进行比较，后者的每个特征均从灰度图像中提取对应模板块，并通过事件跟踪该特征，类似于本文所提的跟踪模型。作为另一个依赖灰度模板的跟踪模型，本文还比较了 ICP 跟踪模型用于基于事件的视觉里程计。此外，还针对纯基于事件的跟踪模型 HASTE 和 EM-ICP 进行评估。对于 EKLT、HASTE 和 EM-ICP，采用公开可用的代码来进行实验。ICP 的实施取自相关工作（参考论文：Standard and event cameras fusion for feature tracking）。所有方法的超参数都针对特定数据集进行了调整，这需要多个小时才能实现最佳性能。

4.2.2 EC Results - EC数据集结果

在常用的跟踪数据集 EC 上，本文提出的数据驱动方法在非零 FA 和预期 FA 方面均优于其他方法，详细如表 1。性能处在第二位的方法为 EKLT，它跟踪特征的持续时间与本文提出的方法相近，如表 1 中的非零 FA 指标所示。然而，本文的方法能够从预期 FA 生成初始特征集中跟踪更多特征。成功跟踪特征的比例越高，FA 越长，使本文的方法更适合姿态估计等下游任务。从图 5 的第一行可以看出，与 EKLT 和 HASTE 相比，本文的方法产生了更多的平滑特征轨迹。正如预期的那样，纯粹基于事件的方法（HASTE、EM-ICP）和使用灰度图像作为模板的方法（本文的、EKLT）之间存在性能差距。这证实了利用灰度图像提取模板（随后基于事件进行跟踪）的好处。

4.2.3 EDS Results - EDS数据集结果

与在 EC 数据集上的性能表现类似，本文提出的方法在 EDS 数据集上优于所有现有跟踪方法，在非零 FA 和预期 FA 方面具有更大的优势，如表 1 所示。性能的显著提升证实了本文方法能够处理不同光照条件和噪声模式的 3D 场景中获得的高分辨率数据。由于使用 Splitter 设置来记录 EDS 数据集的数据，因此事件和图像之间存在未对准伪影，并且由于入射光的减少而导致事件中存在低光噪声。此外，与 EC 数据集相比，EDS 包括更快的相机运动，导致所有方法的总体跟踪性能较低。尽管如此，本文的方法能够处理不同的噪声源，同时可以预测大量的特征轨迹，如图 5 第二行和第三行所示。最后，除了性能增益之外，本文方法不需要数小时的手动微调来将跟踪模型从小分辨率转移到具有不同对比度阈值设置的高分辨率事件相机上。

4.2.4 Runtime Comparison - 运行时间比较

要在实际应用中使用特征跟踪模型，提供低延迟的特征位移更新至关重要。因此，根据实际影响事件的因素评价不同方法的运行时间，即计算时间除以接收数据的时间，图 6 展示了各个方法的跟踪性能。应该指出的是，大多数跟踪方法并不是为了运行效率而实现的，此外由于使用不同的编程语言实现，无法做到绝对的公平。此外，本文对所有方法进行调整，重点关注跟踪性能，这解释了为什么 EKLT 的运行时间很长，因为本文显著增加了优化迭代的次数。尽管如此，不同方法的运行时间可以粗略地认为不同方法的推理速度。对于 HASTE，本文还展示了理想 HASTE 的运行时间，在图 6 中名为 HASTE。理想的 HASTE 假设 HASTE 代码框架完美并行，按顺序跟踪每个特征。即使没有优化部署代码，本文方法也能在 EC 数据集上展现出接近实时的性能，同时也是 EDS 数据集上最快的方法，具有更高的跟踪性能。在 EDS 数据集上，本文的方法并行处理 19.7 个补丁平均需要 17 毫秒，而在使用 Nvidia Quadro RTX 8000 GPU 的 EC 上处理 14.2 个补丁需要 13 毫秒。本文方法的快速推理能力可以通过深度学习架构的批量处理和高度并行化框架来解释。这表明本文的方法具有应用于低延迟场景的潜力。

4.3 Combination of Events and Frames - 事件与帧结合

为了结合灰度图像的上下文信息和事件的高延迟信息，本文使用流行的 KLT 帧跟踪方法扩展了基于事件的跟踪方法。具体来说，本文使用事件跟踪方法来跟踪两帧之间盲区内的特征，并在新帧到达后使用跟踪模型的位移预测作为 KLT 跟踪器的初始猜测。这样做的好处是可以有效减轻高速运动造成的两帧之间基线过大的负面影响。此外，与本文事件跟踪模型的结合提供了两帧之间的特征位置，显着增加了特征位置更新的频率。另一方面，一旦获得可靠的帧信息，KLT 跟踪器就可以纠正特征位置。当基于相机姿态构建真值时，使用具有三个层次尺度的 KLT 跟踪器来处理更大的运动。将本文的方法和 KLT 跟踪器（Ours+KLT）的组合与纯 KLT 跟踪器的帧间不同像素运动进行比较，如图 7 所示。不同的像素运动是通过在 EC 数据集序列中跳帧来实现的，这对应于增加两帧之间的像素运动。从图 7 中可以看出，对于帧间的小像素位移，本文的跟踪模型和 KLT 组合的性能与纯 KLT 跟踪器相当。然而，随着像素运动的增加，本文方法提供的初始猜测有助于 KLT 跟踪器在更长的时间内跟踪特征。此外，本文基于事件的跟踪方法可以在高速运动期间，即当帧遭受运动模糊时提供强大的特征跟踪。这可以在图 1 中可以观察到，图 1 显示了本文的跟踪模型由于高速运动而导致的运动模糊帧上预测的平滑特征轨迹。

4.4 Ablations - 消融研究

为了测试每个网络模块对整个模型的具体贡献，本文基于参考模型进行了几次消融实验，参考模型没有帧注意模块，详情参见表 1。合成数据训练期间的增强显著促进了从合成数据到现实世界数据的零样本传输。此外，特征编码器中的循环导致更长的 FA（w/recurrence），这也是通过引入相关图（w/o correlation）在较小规模上实现的。虽然在 EC 数据集上没有任何改进，但本文提出的帧注意力模块显著提高了 EDS 数据集上序列的性能。这种性能的提高证实了在相似的特征轨迹之间共享信息的好处。通过使用本文的自我监督方案将基于帧注意模块（Ref+Frame Attention）的网络适应真实数据，实现了最高的跟踪性能。最后，帧注意力模块依赖状态变量（无状态）来充分利用帧中特征之间共享信息。

5 总结

本文提出了第一个用于事件相机的数据驱动特征跟踪模型，它利用低延迟事件来跟踪在灰度帧中检测到的特征。借助本文提出的帧注意力模块，该模块融合特征轨迹上的信息，本文的跟踪模型在两个数据集上的性能优于最先进的方法，同时推理时间更短。此外，本文提出的方法不需要进行大量的手动参数调整，并且可以通过本文的自监督策略适应新的事件相机。最后，本文可以将基于事件的跟踪模型与 KLT 跟踪模型结合起来，用于在具有挑战性的场景中进行稳定轨迹的预测。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。