"); //-->
来源|自动驾驶之心
编辑|深蓝学院
1. 点云稀疏性的定义
点云的稀疏性指激光雷达的采样点覆盖相对于场景的尺度来讲,具有很强的稀疏性。例如,将目前主流的户外3D目标检测数据集KITTI[1]的点云投影到对应的RGB图像上,大约只有3%的像素才有对应的点云;VoxelNet[2]将获取的点云等间距的划分到体素空间,超过90%的体素是空的。稀疏性产生的原因包括远距离、遮挡和反光等。
仍然以KITTI数据集为例,KITTI数据集将不同目标的检测难度划分为"Easy"、"Moderate"和"Hard"三类,我们统计了KITTI数据集中不同难度GT框内的点云数目分布情况,如下图所示,可以看出,"Moderate"和"Hard"目标中分别有超过47%和54%的点云数少于60个points,其对应的形状和结构是极其不完整的,进而给3D目标检测带来困难。
2. 点云稀疏性给3D目标检测带来的难点2.1 待检测目标形状不完整,语义信息缺失对于远距离或者遮挡的目标,点云密度随着距离增大而减小,当距离增大或者发生遮挡时,获取的目标点云很少,导致目标的结构信息和语义信息不完整。如下图所示,我们可视化了KITTI数据集中的”Car“目标在真实场景中的点云情况,可以看出:Easy难度目标的可视化形状是比较完整的,这类目标便于网络检出,SOTA方法的检测精度可以达到90%左右;而Moderate和Hard难度目标的可视化形状缺失比较严重,目标的结构信息和语义信息不完整,这类目标的检测精度较低。
2.2 待检测目标容易与背景混淆,造成误检对于远距离目标,传感器获取的目标点云较少,在这种情况下,待检测目标可能与场景中的背景混淆,造成误检。
如下图所示,待检测目标"Pedestrian"和直杆(背景)距离传感器25米,获取的点云稀疏,几乎呈现相同的几何形状。这种相似的几何表示给检测带来困难。
42.3 待检测目标的点云相较场景点云占比少相较于整个场景点云,待检测目标的点云的占比较少。PV-RCNN[3]指出在KITTI数据集中,待检测目标的点云(point of interest)的个数大约为2K,而整体场景的点云个数大约为15K;这种差距在后续的点云下采样过程可能会进一步扩大,进而导致可用的前景点特征少,导致检测精度降低。
3. 点云稀疏性的解决方案针对点云稀疏性带来3D目标检测上的困难,涌现了一系列方法来缓解该问题,包括多模态数据融合、点云下采样方法的改进、基于知识蒸馏的特征学习和点云补全等。下面,本文将对当前研究较多的解决点云稀疏性的方法进行汇总和总结,希望可以给大家带来一些启发。
3.1 改进点云下采样方法整个场景的点云数很多,且背景点占比较大,将整个场景的点云全部送入网络提取特征会极大的增大计算量,不能保证实时性。因此,现有的基于点云的3D目标检测方法会先对场景点云进行下采样,再将下采样后的点云送入网络提取特征和检测。例如PointRCNN[4]在处理KITTI数据时,会先将场景点云随机下采样到16384个,再处理这16384个点云,用于特征提取和检测。
但是,由于前景点在整个场景中占比较少,随机下采样点云可能会导致前景点的占比进一步较少,加剧前景点的稀疏性问题,降低检测精度。因此,一些工作提出基于特征或基于语义感知的下采样等方法来缓解该问题。
论文标题:3DSSD: Point-based 3D Single Stage Object Detector (2020CVPR oral)
论文地址:https://arxiv.org/pdf/2002.10187.pdf
作者单位:Zetong Yang等,港中文和港科技
核心思想:作者首先分析了基于点云的二阶段3D检测网络,第一部分利用SA层下采样和提取点云的语义特征,FP层用于上采样,并将特征广播到下采样期间所丢弃的点,再利用3D RPN生成proposals;第二部分利用refinement模块进一步提高初始proposals的精度;而作者认为FP层和refinement模块耗时较多,可以移除;基于此,作者结合距离下采样和特征下采样,提出了一种融合的下采样策略,从而平衡前背景点数量,保证足够的前景点。
方法简述:
论文标题:SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection (2022 AAAI)
论文地址:https://arxiv.org/pdf/2201.01976.pdf
作者单位:Chen Chen等,悉尼大学等
核心思想:现有的Set Abstraction通常以距离作为标准(如FPS),来选择较远的点来尽可能覆盖整个场景,但是这样会导致keypoints包含过多的背景点,从而导致pedestrian等点云数较少的object漏检。针对该问题,作者对PointNet++做了两处改进:增加一个前景背景点分割模块来识别前景点作为输入;提出S-FPS采样策略来选择关键点。
方法简述:
对于现实场景中的点云,由于遮挡、远距离等原因,采集的点云是稀疏的,导致模型提取的特征不完整,不利于3D检测;但是,现实场目标存在某些共性特征,例如:车是对称物体,车都有四个轮子等,对于人类而言,我们只要看到目标的某个部分,我们就可以知道该目标的类别和大概的位置。因此,一些工作考虑通过知识蒸馏、迁移学习等方法,利用完整目标的完整特征指导真实场景中残缺目标的进行特征学习,或者将点云的深度信息引入到基于RGB图像的3D目标检测中。
论文标题:AGO-Net: Association-Guided 3D Point Cloud Object Detection Network (2022TPAMI)
论文地址:https://arxiv.org/pdf/2208.11658.pdf
作者单位:Liang Du等,复旦大学等
核心思想:作者将现实场景的不完整的稀疏点云定义为感知域,将对应场景补全的完整点云定义为概念域,通过孪生网络辅助稀疏点云从完整点云学习特征,从而生成更完整的特征,进行目标检测任务,且在测试阶段不会引入额外的计算。
方法简述:
论文标题:MONODISTILL: LEARNING SPATIAL FEATURES FOR MONOCULAR 3D OBJECT DETECTION (2022 ICLR)
论文地址:https://arxiv.org/pdf/2201.10830.pdf
作者单位:Zhiyu Chong等,大连理工大学等
核心思想:基于单目图像的3D目标检测由于缺乏深度信息,其3D检测的性能一直差强人意;因此,作者考虑通过teacher-student框架,将点云的深度信息(spatial cues)引入到单目图像的3D目标检测网络,提升检测精度;对于点云和RGB图像不同的特征表示,作者将点云投影到图像平面,进行特征对齐。
方法简述:
基于多模态数据融合的3D目标检测主要指利用跨模态数据提升模型的检测精度。一般而言,多模态数据包含:图像数据、激光雷达数据、毫米波雷达数据、双目深度数据等,本文主要关注当前研究较多的图像+点云融合的3D目标检测模型。点云数据具备目标的几何信息和深度信息,但缺乏目标的颜色和纹理信息,而这些信息对于目标的识别分类十分重要;图像数据颜色和纹理信息丰富,但缺乏深度信息,不能很好的定位目标。因此,一些工作考虑结合二者数据的优点,进行3D目标检测任务。
论文标题:CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection (2020 IROS)
论文地址:https://arxiv.org/pdf/2009.00784.pdf
作者单位:Su Pang等,Michigan State University
核心思想:作者认为,对于决策级的融合而言,多模态数据不需要与其他模态进行同步或对齐,且利用二者的检测结果排除了大部分冗余背景区域,因此更有助于网络学习;方法相对而言比较简单,CLOCs是利用检测结果进行的跨模态融合,属于决策级融合的范畴。
方法简述:
论文标题:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion (2022CVPR)
论文地址:https://arxiv.org/pdf/2203.09780.pdf
作者单位:Xiaopei Wu等,Zhejiang University
核心思想:作者认为目前户外点云+图像的方法没有纯点云的方法效果好的原因包括2个,(1)多模态的数据增广困难以及(2)现在方法大多是从点云找对应的图像融合特征,但是点云能对应上的像素点比较少,没有完全利用好图像的特征。因此,作者考虑多模态特征加权融合,以及跨模态对齐问题;SFD利用的是3D场景预测出的候选框,并在不同模态数据上进行特征提取,因此属于RoI-level的融合范畴
方法简述:
论文标题:Pointpainting: Sequential Fusion for 3D Object Detection (2020CVPR)
论文地址:https://arxiv.org/pdf/1911.10150.pdf
作者单位:Sourabh Vora等,nuTonomy
核心思想:利用细粒度图像分割信息对3D点云进行补全,即将点云投影到图像语义分割网络的输出中,并将分类分数附加到每个点云上,从而增加点云的语义信息;
方法简述:
针对稀疏点云的目标,一些方法直接采用点云补全的方式,先将目标补充为较为完整的目标,再进行3D目标检测。
论文标题:Spatial information enhancement network for 3D object detection from point cloud (2022 PR)
论文地址:https://arxiv.org/pdf/2012.12397.pdf
作者单位:Ziyu Li等,东南大学等
核心思想:作者考虑到距离传感器远近目标中点云数量的不平衡的问题,即距离LiDAR较远的目标收集到的点数相对较少,作者认为网络是难以处理这种不平衡性;进而提出一种空间信息增强的模块,从稀疏的、不完整点云预测密集的、完整的空间表示,来缓解这种不平衡性。
方法简述:
论文标题: Multimodal Virtual Point 3D Detection(2021 NeurIPS)
论文地址:https://arxiv.org/pdf/2111.06881.pdf
作者单位:Tianwei Yin等,UT Austin等
核心思想:作者结合实例分割网络,先对2D图像进行分割,利用分割结果生成虚拟点云,对原始场景补全,得到完整的目标进行3D检测。
方法简述:
A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the KITTI vision benchmark suite,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2012, pp. 3354–3361.
Zhou Y, Tuzel O. Voxelnet: End-to-end learning for point cloud based 3d object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4490-4499.
Shi S, Guo C, Jiang L, et al. Pv-rcnn: Point-voxel feature set abstraction for 3d object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10529-10538.
S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal generation and detection from point cloud,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2019, pp. 770–779.
W. Yuan, T. Khot, D. Held, C. Mertz, M. Hebert, PCN: point completion network, in: 3DV, 2018, pp. 728–737.
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。