利用稀疏的语义视觉特征进行道路建图和定位(ICRA2021)（1）

计算机视觉工坊 | 2021-09-14 18:59:55 阅读：526

Road Mapping and Localization using Sparse Semantic Visual Features

Cheng W, Yang S, Zhou M, et al. Road Mapping and Localization using Sparse Semantic Visual Features[J]. IEEE Robotics and Automation Letters, 2021. ICRA2021

单位：阿里巴巴

针对问题：

轻量级语义地图构建及定位。

提出方法：

文章采用了一种类似于关键点检测的方法，对典型路标进行典型关键点提取；对特定路标设计了不同的参数模型进行帧间优化，相较于无优化的点云叠加方式，该方法构建了特征间的数据关联，用于里程计自身的位姿估计同时也进行更精确的路标地图构建。

达到效果：

实现了KAIST数据集以及作者采集的数据集大场景范围内精确建图及定位。

存在问题：

文章所构建的定位模块在实现定位时采用GPS提供定位初值，再进行局部精搜索并使用PnP进行定位的策略，该方法在GPS信号较好且跳变较小时能实现较好效果，但在GPS-denied的场景使用受限，也许可以考虑结合HF-Net的方式进行初始定位。

Abstract

我们提出了一种新的方法，通过提取、建模和优化语义道路元素来实现自主车辆的视觉建图和定位。具体来说，我们的方法整合了级联深度模型来检测标准化的道路元素，而不是传统的点特征，以寻求提高位姿的准确性和地图表示的紧凑性。为了利用结构特征，我们通过其代表性的深层关键点为骨架和边界建立路灯和标志的模型，并通过piecewise cubic splines进行车道参数化。基于道路语义特征，我们建立了一个完整的建图和定位流程，其中包括a）图像处理前端，b）传感器融合策略，以及c）优化后端。在公共数据集和我们的测试平台上进行的实验证明了我们的方法的有效性和优势，其表现优于传统方法。

Main Contributions

一个卷积神经网络（CNN）支持的图像处理前端，以提取语义特征。

道路元素的参数化和损失函数的设计方法。

语义优化模块，可用于离线测绘和在线定位。

我们注意到，存在与我们的方法在概念上相似的方法，通过分割道路图像和选择稳定区域的点。然而，稳定语义区域中的点特征不一定是稳定和紧凑的，而且高水平的信息，例如曲线，也没有被利用。相比之下，我们的方法利用了多源语义信息，提供了更紧凑的表示，达到了更好的 "持久性 "和 "紧凑性"。

System Overview

我们的地图和定位系统的骨干是一个紧密耦合的状态优化框架，具有批量和滑动窗口策略。具体来说，我们的算法提出在离线情况下建立基于标准化道路实例的语义地图，并利用这种地图进行在线定位。所涉及的语义实例包括三种主要类型：水平物体、地面物体和车道。给予一个关键帧，感知模块执行级联深度检测，以提取实例和它们的代表点作为视觉特征.

在离线建图过程中，感知模块对每个关键帧都要执行。然后，对连续关键帧之间的检测结果进行跟踪，以建立多视角关联，共同估计相机轨迹和地标位置。随后，在以前访问过的路段上重新观察到的实例被重新识别，并通过循环检测进行合并。最后，这些优化的状态被序列化为地图资产用于定位。在在线地图辅助定位过程中，感知模块以较低的频率运行，以实现对计算单元的低成本消耗。因此，语义特征是通过混合检测和跟踪策略获得。这些特征与保存的地图相匹配，并由一个基于滑动窗口优化的测距系统使用，以减少全局漂移。

Selection of Road Features

考虑到地图的稀疏化和查询的有效性，城市道路上的以下标准化目标适合作为语义地标来检测：1）道路旁边电线杆顶部的灯和交通标志足够稳定和高，可以被前置摄像头捕捉。2）虽然有时会被车辆遮挡，但地面区域几乎占据了每张图像的一半，这使得那些涂在地面上的高对比度标志无法被忽略。3）与地面标志类似，涂有实线和虚线的车道也经常被观察到。实线车道提供了一个方向的运动约束，虚线车道的拐角可以被视为索引点地标。在这项工作中，我们选择上述语义类型作为目标对象，以建立我们的语义地图。

Detection of Road Features

我们的两阶段级联检测模块首先进行实例级检测，以获得实例作为盒子（即杆和地面）物体上的索引代表像素和车道轮廓上的样本像素。然后，沿着这些检测到的虚线车道，我们评估64×64的图像补丁，以级联检测有索引的虚线车道角。为了减少对特征提取等可共享过程的重复计算，我们参考了无锚检测方法CenterNet，该方法将低级特征提取过程与顶级头像分离，以使这些头像能够适应不同的任务。

Feature Tracking for Semantic Entities

我们使用匈牙利匹配策略，在像素空间中以实例和像素的方式关联地面特征：1）在实例关联期间，我们计算交叉联合(IoU),对于常规物体的多边形和对于车道的5.0像素宽度的折线。2）在像素方面的关联中，我们计算其索引关键点的重投像素距离。IoU百分比<50%和像素距离>5.0的匹配被忽略。

对于在垂直物体（如电线杆）中检测到的关键点，我们使用光流方法进行帧间跟踪。在特征跟踪过程中，我们保留了由GFTT提取器和FREAK描述器提取、描述和跟踪的经典关键点，因为它们不仅是视觉-惯性测距的一部分，而且是值得纳入结构化物体的稳定跟踪的点特征。与输出掩码的分割不同，检测到的二维方框可能包含来自背景区域的GFTT特征关键点，特别是在极点实例中。因此，在II-F节讨论的状态初始化过程中，我们对这些背景特征关键点进行了离群剔除。

Representation and Initialization of Road Lanes

State Estimator Design

基于上述新的变量和每个图像帧C的原始帧位置TC，我们根据检测和跟踪的语义特征添加三种类型的约束包括:

1)Points observation factors:

我们倾向于像以前的方法一样，通过以下约束条件对常规关键点进行三角化和参数化。

2)Spline observation factors:

我们使用下面的约束条件来动态地将样本和角点作为spline b的控制点的测量值。

3)Coplanar prior factors:

垂直和水平共面先验都是通过以下形式的残差加入到优化中。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。