新闻  |   论坛  |   博客  |   在线研讨会
CVPR2023 | 基于多视图投影和方向一致性的弱监督单目3D检测
计算机视觉工坊 | 2023-04-23 20:00:57    阅读:293   发布文章

论文思路:

单目3D目标检测由于其应用简单,已成为自动驾驶的主流方法。一个突出的优点是在推理过程中不需要LiDAR点云。然而,目前的大多数方法仍然依赖于3D点云数据来标记训练阶段使用的ground truths。这种训练与推理的不一致使得大规模的反馈数据(large-scale feedback data)难以利用,增加了数据收集的费用。为了弥补这一缺陷,本文提出了一种新的弱监督单目三维目标检测方法,该方法仅用在图像上标注的二维标签来训练模型。具体来说,本文在这个任务中探索了三种类型的一致性,即投影一致性、多视图一致性和方向一致性,并基于这些一致性设计了一个弱监督架构。此外,本文提出了一种新的二维方向标注方法(2D direction labeling method)来指导模型进行准确的旋转方向预测。实验表明,本文的弱监督方法与一些完全监督方法具有相当的性能。当被用作预训练方法时(When used as a pre-training method),本文的模型仅使用1/3的3D标签就能显著优于相应的全监督基线。

主要贡献:

本文提出了一种新的单目3D目标检测的弱监督方法,该方法只将二维标签作为ground truth,而不需要任何三维点云进行标记。据本文所知,本文是第一个在这个任务中完全避免3D点云依赖的工作。本文将投影一致性和多视图一致性引入到该任务中,并设计了两个一致性损失来指导基于它们的精确3D bounding boxes的预测。本文提出了一种新的标注方法叫2D direction label,来代替点云数据上标注的3D rotation label以及基于新标签的方向一致性损失。在本文的实验中,提出的弱监督方法取得了与一些全监督方法相当的性能。本文还微调本文的模型与小比例的3D ground truth。结果表明,即使只有1/3的ground truth标签,本文的方法也可以比相应的全监督基线获得更好的性能,展示了基于反馈生产数据改进模型的潜力。

网络设计:

图片图2。提出的方法的体系结构。左栏显示,在训练阶段,将来自不同视点的图像对送入检测模型,在预测和2Dground truth之间计算4个损失。右列显示投影一致性和多视图一致性的详细信息。为了计算投影一致性损失,本文将预测的box投影到二维图像中,并将其转换为二维box,最后计算二维box与二维box标签的差值。为了计算一致性损失,本文首先将从视点1预测的3Dbox转换为视点2的坐标系,然后计算转换后的box与视点2预测的box的差值。图片图1。投影和多视图的一致性的可视化。(a)由于投影损失在三维空间中有多个最优解,仅靠投影一致性无法确定目标的准确位置。例如,3D空间中的两个虚线框产生相同的投影损失,因为它们在2D空间中有相同的投影。(b)在多视图一致性的约束下,最优解必须是两个视点的共同解,即目标位置。

实验结果:

图片图片图片图片图片图片对此,你怎么看?欢迎转发朋友圈,发表你的观点。或者加入自动驾驶技术交流群,和众多同行朋友一起交流讨论。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客