高翔博士：单目SLAM在移动端应用的实现难点有哪些？（2）

计算机视觉工坊 | 2023-06-12 21:21:32 阅读：541

发布文章

视觉SLAM的困难

双目相机和RGBD相机能够测量深度数据，于是就不存在初始化和尺度上的问题了。但是，整个视觉SLAM的应用中，存在一些共同的困难，主要包括以下几条：

相机运动太快
相机视野不够
计算量太大
遮挡
特征缺失
动态物体或光源干扰

2.1 运动太快

运动太快可能导致相机图像出现运动模糊，成像质量下降。传统卷帘快门式的相机，在运动较快时将产生明显的模糊现象。不过现在我们有全局快门的相机了，即使动起来也不会模糊的相机，只是价格贵一些。

（你真以为啥图都可以用来SLAM吗？拿衣服啊，图片来自TUM数据集）

（全局快门相机在拍摄高速运动的物体仍是清晰的，图片来自网络）

运动过快的另一个结果就是两个图像的重叠区（Overlap）不够，导致没法匹配上特征。所以视觉SLAM中都会选用广角、鱼眼、全景相机，或者干脆多放几个相机。

2.2 相机视野不够

如前所述，视野不够可能导致算法易丢失。毕竟特征匹配的前提是图像间真的存在共有的特征。

2.3 计算量太大

基于特征点的SLAM大部分时间会花在特征提取和匹配上，所以把这部分代码写得非常高效是很有帮助的。这里就有很多奇技淫巧可以用了，比如选择一些容易计算的特征/并行化/利用指令集/放到硬件上计算等等，当然最直接的就是减少特征点啦。这部分很需要工程上的测试和经验。总而言之特征点的计算仍然是主要瓶颈所在。要是哪天相机直接输出特征点就更好了。

2.4 遮挡

相机可能运动到一个墙角，还存在一些邪恶的开发者刻意地用手去挡住你的相机。他们认为你的视觉SLAM即使不靠图像也能顺利地工作。这些观念是毫无道理的，所以直接无视他们即可。

2.5 特征缺失、动态光源和人物的干扰

老实说SLAM应用还没有走到这一步，这些多数是研究论文关心的话题（比如直接法）。现在AR能够稳定地在室内运行就已经很了不起了。

---------------我是分割线-----------------

可能的解决思路

前边总结了一些单目视觉可能碰到的困难。我们发现大部分问题并不能在当下的视觉方案能够解决的。你或许可以通过一些工程技巧加速特征匹配的过程，但像尺度、遮挡之类的问题，明显无法通过设计软件来解决。

所以怎么办呢？——既然视觉解决不了，那就靠别的来解决吧。毕竟一台设备上又不是只有一块单目相机。更常见的方案是，用视觉+IMU的方式做SLAM。

当前广角单目+IMU被认为是一种很好的解决方案。它价格比较低廉，IMU能在以下几点很好地帮助视觉SLAM：

IMU能帮单目确定尺度
IMU能测量快速的运动
IMU在相机被遮挡时亦能提供短时间的位姿估计

所以不管在理论还是应用上，都出现了一些单目+IMU的方案[2,3,4]。众所周知的Tango和Hololens亦是IMU+单目/多目的定位方式。

（用Tango玩MC，缺点是盖的房子尺寸和真实世界一样。盖二楼你就得真跑到楼上去盖——这怎么造圆明园？）

（这货就是靠后边这鱼眼+IMU做跟踪的）

（Hololens图就不上了吧……横竖也不是自己的）

[1]. Strasdat, Montiel, A.J.Davison, Scale drift-aware large scale monocular SLAM, RSS 2006.

[2]. Leutenegger et. al., Keyframe-based visual-inertial odometry using nonlinear optimization, IJRR 2015.

[3]. Huang Guoquan, Kaess and Leonard, Towards Consistent Visual-Inertial Navigation, ICRA 2014.

[4]. Li Mingyang and Mourikis, High-precision, consistent EKF-based visual-inertial odometry, IJRR, 2013.

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。