"); //-->
[28、52、67、138]中提出的系统采用低级和中级特征来实现 SLAM 的目标。在某些环境中,例如走廊,平面 SLAM 变得不受约束。融合平面和点可以极大地增强 SLAM 在 [138] 中提出的环境中的鲁棒性,其中使用弹出式 3D 模型在单目帧中检测到的平面用于估计相机轨迹和 3D 地图环境。在不同的帧中,平面是基于三个量的加权和关联的:它们的法线之间的差异、它们之间的距离以及它们的投影之间的重叠。对于每个传入的单目帧,计算 ORB 描述符并使用词袋方法来检测循环。在检测到环路后,确定相应的平面对并相应地修改因子图。在 [52] 中采用了不同的几何基元和平面。使用图公式的最小二乘优化,其中涉及平面约束,用于解决 SLAM 问题。检测到的点被限制在一个特定的平面上,由其在环境中的法线和相对于相机的深度参数化。环境中平面之间的角度也被视为约束。所有约束都耦合到成本函数中,从而解决了由此产生的非线性最小二乘问题。[67] 中提出了第三种变体,其中提出了基于平面和点的 RGB-D SLAM 方法。每个传入的图像被划分为间隔,然后根据其中存在的平面进行标记。帧的方向是根据其中最主要的平面的方向估计的,而帧之间的平移是根据匹配的 SIFT 特征和 RANSAC 计算的。全局对齐和闭环是基于低级和中级特征的融合进行的,这有助于提高所提出方法的鲁棒性。最近在 [144] 中提出了一种 RGB-D SLAM,其中利用点和平面来估计相机的姿势和周围环境的地图。ORB 特征从 RGB 帧中提取并由 ORB-SLAM2 的 RGB-D 版本处理。另一方面,深度帧用于从场景中提取平面及其轮廓点。轮廓点用于在重建的地图中构建平面之间的空间和几何约束。使用了一种新颖的平面数据关联技术,其中使用两个平面之间的角度来判断它们是垂直还是平行,同时考虑到测量噪声。如果观察到的平面的点与地图中的平面之间的距离低于特定阈值,则两个平面匹配。与场景中出现的平面垂直的假想平面也被利用并视为姿势估计过程中的其他观察到的特征。通过 Levenberg-Marquardt 优化器构建和求解因子图。所提出的平面数据关联方法比考虑平面法线和/或平面距离的方法更稳健,因为它考虑了不可避免的测量噪声。超像素是中级特征,被视为在输入帧中表现出相似强度的平面区域。使用超像素具有能够重建纹理不佳的场景的优势。然而,这些特征没有一个健壮的描述符,这使得很难在不同的图像中匹配它们。在 [28] 中,提出了一种基于特征的单目 SLAM 方法,将超像素与 PTAM 相结合,其中 PTAM 关键帧被划分为不规则大小的超像素。要估计的地图状态由所有关键帧的位姿、点特征的欧几里得坐标和平面超像素的参数组成。两个关键帧(其位姿已使用 PTAM 计算)用于初始化超像素。使用蒙特卡罗方法提取和匹配关键帧中的所有超像素。BA用于优化相机和3D点的状态,然后用于估计超像素的参数。在每个新的关键帧上,所有超像素被重新投影以搜索匹配。当重投影误差降至阈值以下时,匹配作为约束添加到优化问题中。表4 基于混合特征的 SLAM 方法采用的实现选择另一项利用点特征和平面区域融合的工作,在这种情况下表示为平方基准标记,在环境中可以在 [90] 中找到。除了由于使用点特征而实现的稳健性之外,在该系统中使用基准标记还具有几个优点,例如消除尺度不确定性、在区分点特征可能具有挑战性的重复环境中的稳健性以及特征随时间的不变性。3.4.2 基于低级和高级特征的方法基于在 [10, 26, 37, 48, 71, 105, 106、118、130]。这种方法在保持鲁棒性的同时展示了高水平的表达能力。[48] 中提出的系统主要在单目 RGB 帧上进行跟踪、对象识别和映射。表现出独特的几何和/或语义信息的帧被选为关键帧。在包含至少5个点对应、最小视差角为 3° 且必须表现出可接受的几何条件的多个帧中检测到语义标记的对象后,将其添加到地图中。为了区分场景中相同对象模型的实例,在给定地图比例的情况下假设检测到的实例在世界框架中的姿态,并计算与先前检测到的实例的重叠。如果未检测到重叠,则将新对象实例添加到地图中。如果还不知道地图的比例尺,则假定顺序检测到的对象属于地图中的同一对象实例。使用 k-d 树搜索在测量值和对象模型之间建立对应关系。为了更加稳健,计算输入图像中的 ORB 特征并建立 2D-3D 对应关系。几何特征可以用于检测场景中的对象,而不是独立使用低级特征,如 [37] 中提出的,其中对象检测和 SLAM 是使用一种新的 BA 公式(称为语义 BA)针对 2D 和 3D 传感器联合完成的.在接收到新图像后,将提取特征并将其与对象模型数据库中的特征进行匹配。然后为与对象的每组对应关系创建一个验证图。然后将特征与数据库中的模型匹配的帧转换为公共姿势,相应语义特征的成本是检测到的特征的重投影误差,该误差由匹配的置信度加权.在 3D 情况下,当多次检测到一个对象时,语义边缘的成本函数包括将一个检测到的特征重新投影到另一个特征中。特征与模型中的公共点匹配的帧被称为具有由图中的边表示的虚拟匹配。出于一致性目的,将从 SLAM 获得的几何约束添加到图中。生成的验证图经过优化以获得所有约束的最小重投影误差。在某些环境中,例如教育实体和医院,每个房间都分配有一个唯一的标识符,该标识符可以作为 SLAM 系统中的地标,如 [106] 中所述。在消除与墙壁相对应的点后,采用基于 SVM 分类器的门牌检测器。门牌中包含的字符使用光学字符识别 (OCR) 进行识别。从激光数据中提取的线条以及来自门牌检测器的测量值随后被传递到映射器以映射环境。在 [118] 中,通用对象的观察被用于扩展 RGB-D ORB-SLAM2。对象通过 k-d 树被检测、分割并与地图中的地标相关联。物体的姿态是使用 ORB-SLAM 确定的。检测到的对象存储有三条信息:对象的 RGB 点云、来自 ORB-SLAM 的姿态和累积的检测置信度。类标签是根据对象检测的整个历史确定的。通过基于最新的轨迹估计投影点云,可以显式地构建环境的稀疏地图。最后,对象点作为欧几里得坐标插入到 SLAM 状态向量中,因此在后续帧中接收到新数据时会对其进行跟踪和进一步细化。EKF-Monocular-SLAM、运动结构(SfM)和视觉识别结合在[26]中提出的系统中,通过将图像中的 SURF 点与数据库中的对象模型相关联来检测对象。然后使用 RANSAC 对此类关联进行几何验证。之后,PnP 算法或 DLT 算法分别用于计算非平面和平面模型的变换或单应矩阵,然后用于细化对象的位姿。匹配的点被输入到基于 EKF-Monocular-SLAM 的单目 SLAM 模块中,其中要估计的状态向量由相机运动参数和点特征以及检测到的物体的几何形状组成。另一方面,观察环境中的某些场景可能会表现出动态性,如果不加以考虑,则会阻碍 SLAM 系统的整体性能。因此,大多数 SLAM 系统假设在整个定位和建图过程中物体保持静止的场景和映射过程。[105] 中提出的 SLAM 系统通过在操作之前从观察到的场景中移除动态对象来消除这种假设。更具体地说,每个 RGB-D 帧都经过处理,以掩盖使用基于 RGB-D 的方法检测到人的区域 [58]。剩余的数据图像是一个静态环境,可以使用标准的视觉 SLAM 算法进行处理。在 [130] 中可以找到类似的方法,其中动态对象通过计算有效的逐步方法从场景中分割出来,以检测对象并提取其轮廓。然后使用一种新颖的查找表方法基于点特征映射静态环境,该方法使用来自环境的大量不同、均匀分布的点特征作为目标,这提高了映射和定位的准确性。同样,[116] 中提出了一种从观察场景中提取非静态对象的在线方法,从而提高 RGB-D SLAM 在非静态环境中的性能。该方法包括三个主要阶段,从图像差分开始,以检测场景中的任何移动物体。然后使用粒子滤波器来跟踪连续 RGB-D 帧中的运动补丁,这使得它比跟踪特定对象模型的方法更通用。最后,通过矢量量化对运动对象进行分割后,最大后验用于识别场景的前景。为了可靠地运行,该方法要求观察到的场景主要由静态对象组成并包含平面。随着视觉 SLAM 重建的场景越来越大,将特征与点匹配变得更具挑战性,因为有些地方表现出相似的外观。为了规避这一点,[71] 中提出的工作采用了一个粗略的位置识别模块,其中包含公共点的帧使用重叠视图聚类算法在位置类下分组在一起。然后基于哈里斯角的简要描述符之间的汉明距离完成特征匹配。数据关联和 SLAM 是紧密耦合的问题,除了在少数研究工作中将它们作为两个优化子问题来解决之外,它们没有被联合考虑。估计每个观察-地标对的数据关联,然后用于估计传感器和地标姿势。使用这种方法,不正确的数据关联会严重降低传感器和地标姿态估计的准确性。此外,当获得相同地标的更精细测量时,不能重新考虑由于其模糊性而被丢弃的测量。这些限制推动了 [10] 中提出的 SLAM 算法的变化,其中在单个优化问题中考虑了数据关联以及传感器和地标姿态的估计。不是将每个观察与单个地标相关联,而是使用期望最大化来考虑数据关联的整个密度,同时估计传感器和地标的姿势,这被称为软数据关联。估计基于惯性测量、ORB 特征和从对象检测器获得的语义信息。观察到的地标的深度是在该地标的边界框中检测到的 ORB 特征的中值。如果环境中存在同一对象的多个实例,则使用马氏距离来决定数据关联。在 [4] 中提出了这项工作的扩展,其中语义结构的推断方式不同。不是依赖 ORB 特征,而是使用堆叠的沙漏卷积网络来检测在每个边界框中找到的对象的语义特征。结构约束用于将每个语义特征与相应的地标相关联,然后使用 Kabsch 算法来估计对象的方向。在 [33] 中可以找到一种非常相似的方法,其区别在于它采用非高斯传感器模型,而不是大多数提出的方法,其中总是假设高斯模型。[143] 中提出的系统结合了高级语义标记特征和低级 CNN 特征,通过粗到细的方法对移动机器人进行定位。通过首先比较图像中出现的对象,将观察结果与地图中的视觉帧进行匹配。然后根据图像的 CNN 特征进行更精细的搜索。相机的估计姿势以及特征最终使用 BA 进行细化。3.4.3 低、中、高层次的基于特征的方法在[54]和[137]中,SLAM系统是基于所有三个层次的特征开发的;点、平面和对象。[54] 中提出的系统采用 RGB-D 传感器来观察环境中的特征。该系统的实时、高效性能是可以实现的,因为对象是通过不需要高度详细表示的二次曲线来表示的。SLAM 问题被表述为一个因子图,其中使用了各种类型的因子,包括对点、对象和平面以及点-平面、平面-平面和对象-平面关系的观察。ORB-SLAM2 的一种变体用于检测环境中的点,然后在从粗到细的金字塔中的帧之间进行匹配。Faster R-CNN 用于检测传入帧中的对象,然后计算表示对象的相应椭圆体。如果对象的单个实例出现在环境中,则跨帧使用语义标签将观察结果与对象相关联。否则,数据关联是通过最近邻匹配实现的。使用有组织的点云分割技术对表示场景的点云进行分割以提取平面。平面使用它们之间的距离和它们的法线之间的差异的阈值来关联。在属于它们的平面和点、对象和它们所在的相应平面之间以及假设曼哈顿世界的多个平面之间添加因子。采用词袋方法检测闭环。与最先进的 SLAM 系统相比,使用通过单目相机观察到的点、平面和对象,[137] 中提出的工作实现了改进的定位,尤其是在没有闭环的情况下。这归因于物体和平面的远程可观测性,这有助于新旧测量之间的更多关联。对象被表示为长方体,平面边缘被检测然后反向投影以获得它们的参数,并添加点以进一步约束相机姿势。BA 公式与四种类型的约束一起使用:相机平面、相机对象、对象平面和点平面。生成的地图是密集的,并表现出高水平的表现力。4 结论同时定位和映射是机器人社区中最主要的研究问题,在该领域投入了大量的精力来生成新的方法,以最大限度地提高其鲁棒性和可靠性。在从要重建的环境中获取第一组测量值后,初始化机器人的轨迹和地图。随后的测量通过不同流程的流水线,这些流程在每个 SLAM 系统中实现不同,但确实达到了相同的目的。这些过程包括数据关联、闭环、重新定位以及轨迹和地图估计。在本文中,我们调查了大多数最先进的视觉 SLAM 解决方案,这些解决方案利用特征来定位机器人并绘制其周围环境。我们根据它们所依赖的特征类型将基于特征的视觉 SLAM 方法分类;低级、中级、高级或混合功能。对每个类别的优势和劣势进行了彻底调查,并在适用时强调了每个解决方案克服的挑战。表格中提供了同一类别方法之间的比较,比较了实现 SLAM 管道的每个组件所采用的方法。根据我们的深入审查,我们认为以下挑战仍未解决。1. 普遍性 当前的 SLAM 解决方案缺乏适应机器人运行环境的能力。因为它们依赖于某种类型的特征。未能在环境中检测到这些特征会导致 SLAM 结果的准确性发生灾难性的下降。这可能是由于环境中间歇性地存在特征或所采用的视觉系统无法检测到它们。如果 SLAM 系统依赖于一组非常有限的特征,例如神经网络可以检测的对象集,而不利用图像中的其他元素,如平面、几何图元或新对象,则会发生前者网络没有经过训练来检测。后者可能发生在具有挑战性的环境中或由于突然运动。为了应对这些挑战,SLAM 使用的视觉系统应该灵活地适应基于机器人运行环境的各种类型的特征,例如在室内和室外环境之间的过渡期间。2. 鲁棒性 在SLAM流程中存在来自多个来源的噪声时,估计算法有时很难生成地图和轨迹的最佳估计。已经进行了非常有限的研究工作来保证 SLAM 估计的最优性,或者至少验证估计是否是最优的 [17-19, 55-57]。为此,例如,通过神经网络对 SLAM 估计进行后处理可能会显着改善估计的轨迹和重建的地图,从而形成更强大的 SLAM 系统。3. 场景理解和表达表示自从 2012 年深度学习取得突破以来,目标检测器在 SLAM 中得到了大量利用。然而,当前的目标检测器没有利用检测之间的任何时间或空间关系[117]。如果考虑到这些限制,预计检测的效率和可靠性会提高。我们目前目睹的软件和硬件技术的进步应该针对开发一种能够克服所有这些挑战的环境感知、无错误、通用的视觉 SLAM 算法。
致谢 本出版物基于哈利法科技大学资助的工作,奖励编号为 RC1-2018-KUCARS。遵守道德标准 利益冲突 通讯作者代表所有作者声明不存在利益冲突
参考文献1. Alahi A, Ortiz R, Vandergheynst P (2012) Freak: fast retina keypoint.In: 2012 IEEE conference on computer vision and pattern recognition, pp 510–517.https ://doi.org/10.1109/ CVPR.2012.62477 152. Angeli A, Doncieux S, Meyer J, Filliat D (2008) Real-time visual loop-closure detection.In: 2008 IEEE international confer- ence on robotics and automation, pp 1842–1847.https ://doi.org/10.1109/ROBOT .2008.45434 753. Annaiyan A, Olivares-Mendez MA, Voos H (2017) Real-time graph-based slam in unknown environments using a small UAV.In: 2017 international conference on unmanned aircraft systems (ICUAS), pp 1118–1123.https ://doi.org/10.1109/ICUAS .2017.79915 244. Atanasov N, Bowman SL, Daniilidis K, Pappas GJ (2018) A unify- ing view of geometry, semantics, and data association in slam.In: Proceedings of the twenty-seventh international joint con- ference on artificial intelligence, IJCAI-18.International Joint Conferences on Artificial Intelligence Organization, pp 5204– 5208. https ://doi.org/10.24963 /ijcai .2018/7225. Bahraini MS, Bozorg M, Rad AB (2018) Slam in dynamic envi- ronments via ml-ransac.Mechatronics 49:105–118.https ://doi.org/10.1016/j.mecha troni cs.2017.12.0026. Bay H, Ess A, Tuytelaars T, Gool LV (2008) Speeded-up robust features (surf ).Similarity matching in computer vision and mul- timedia.Comput Vis Image Understand 110(3):346–359.https ://doi.org/10.1016/j.cviu.2007.09.0147. Beaudet PR (1978) Rotationally invariant image operators.In: Proceedings of the 4th international joint conference on pat- tern recognition.Kyoto, pp 579–5838. Besl PJ, McKay ND (1992) A method for registration of 3-d shapes.IEEE Trans Pattern Anal Mach Intell 14(2):239–256.https ://doi.org/10.1109/34.12179 19. Bosse M, Zlot R, Flick P (2012) Zebedee: design of a spring- mounted 3-d range sensor with application to mobile mapping.IEEE Trans Robot 28(5):1104–1119.https ://doi.org/10.1109/TRO.2012.22009 9010. Bowman SL, Atanasov N, Daniilidis K, Pappas GJ (2017) Proba- bilistic data association for semantic slam.In: 2017 IEEE inter- national conference on robotics and automation (ICRA), pp 1722–1729 (2017).https ://doi.org/10.1109/ICRA.2017.79892 0311. Brandli C, Berner R, Yang M, Liu S, Delbruck T (2014) A 240 × 180 130 db 3 *博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。