CVPR2023 l 自动驾驶中统一感知和预测的隐式占位流场新范式！

计算机视觉工坊 | 2023-07-19 19:44:28 阅读：436

1 前言

自动驾驶车辆必须能够感知周围环境并预测其他交通参与者的未来行为。现有的研究要么进行目标检测，然后对检测到的目标进行轨迹预测，要么对整个场景进行密集的占位和流格预测。前者存在安全问题，因为为了提高效率，需要保持较低的检测数量，从而牺牲了目标的回收率。后者由于输出格的高维度和完全卷积网络固有的有限感受野而计算成本高。此外，这两种方法都利用了许多计算资源来预测可能永远不会被运动规划器查询的区域或对象。

本文介绍了一种统一的感知和预测方法：通过单个神经网络隐式地表示占位和流格随时间变化。该方法避免了不必要的计算，因为运动规划器可以直接在连续的时空位置查询它。此外，论文作者设计了一种架构，通过添加高效而有效的全局注意机制，克服了先前明确的占位预测方法的有限感受野。通过在城市和高速公路环境中进行大量实验，论文作者证明了他们的隐式模型优于当前的最先进技术。

2 算法介绍2.1 基础概念补充——隐式几何重建：

几何重建是指在给定某个不完整表示（如图像、LiDAR、体素）的情况下，预测对象的三维形状的任务。隐式神经几何重建方法已被证明优于显式对应方法，后者将三维形状表示为网格、点集、体素或网格。相反，隐式方法训练一个神经网络来预测一个连续场，为3D空间中的每个点分配一个值，以便从等值面中提取出形状。具体而言，该网络可以预测3D空间中的非线性二值占位，或者是到表面的有符号距离函数。论文作者则将它们应用在自动驾驶的感知和预测任务中的。

2.2 任务参数化

输入参数化：模型接受体素化的LiDAR表示（）和高清地图的光栅（）作为输入。对于LiDAR，设作为最近次扫描的序列更准确地说，是在时间步长t '结束的LiDAR扫描，其中包含Pt '个点，每个点由三个特征描述：（，，）。和是点相对于当前时间步长下的SDV参考框架的位置，该参考框架以SDV的当前位置为中心并且x轴沿着其行进方向。表示点相对于地面的高度。最后，，采用多次扫描鸟瞰图体素化方法，沿着BEV平面法线方向分为D个深度通道，高度像素为H，宽度像素为W。对于光栅地图，将高清地图中表示车道中心线的多段线C进行光栅化，生成具有相同的空间维度的单通道光栅图。输出参数化：设为BEV中的一个时空点，在未来的时间t。这项工作是预测占位概率和流向量，指定占据该位置的任何车辆在BEV中的运动。采用反向流来建模流向量f，因为它可以用单个反向流向量来捕捉多模态的前向运动。更具体地，反向流描述了时间t和位置(x, y)处的运动，它是该位置从到的平移向量，如果该位置有一个对象占据，则为：

其中，（，）表示时间时占据（）点在t时的BEV位置。

2.3 网络架构

作者使用一个多头神经网络ψ来参数化预测的占位概率和流向量。该网络以体素化的LiDAR数据、光栅地图和一个包含个时空查询点的小批量作为输入，并行估计小批量的占位概率和流向量:

其中，网络ψ分为卷积编码器和隐式****两部分，用于计算场景特征并输出占位概率和流向量的估计结果，如下图所示。

编码器由两个处理BEV LiDAR和地图光栅的卷积模块组成，一个接收LiDAR和地图光栅特征拼接的ResNet 输出多分辨率特征平面，以及一个轻量级特征金字塔网络(FPN)来处理这些特征平面。这样就得到了一个分辨率为输入的一半的BEV特征图，其中包含了场景的几何、语义和运动等上下文特征。值得注意的是，特征图中的每个空间位置（特征向量）都包含了关于其邻域（编码器的感受野大小）的空间信息，以及过去秒的时间信息。换句话说，Z中的每个特征向量可能包含关于运动、局部道路几何和邻近车辆的重要线索。

作者设计了一个隐式占位概率和流向量****，灵感来自于这样的直觉：查询点的占位概率可能是由于一个在时间t之前以快速速度移动的远处物体引起的。因此，我们希望利用时空查询位置周围的局部特征来指示接下来应该观察的区域。例如，关于一个对象的特征可能在其原始位置周围（在时间{）}更具表达力，因为那里有LiDAR的证据。与在时间t占据查询点的对象可能发生交互的邻近交通参与者也是需要关注的（例如，前车、在相似时间到达合并点的另一辆车）。

为了实现这些直觉，作者首先使用双线性插值在查询BEV位置处对特征图进行插值，得到包含查询周围局部信息的特征向量。然后，我们通过偏移初始查询点来预测K个参考点，其中偏移量∆q是通过使用基于全连接的ResNet架构计算得到的。对于所有的偏移量都获得相应的特征。这可以看作是一种形变卷积的形式；它预测并添加2D偏移量到卷积的规则网格采样位置，并在这些偏移位置进行特征向量的双线性插值。为了聚合来自形变采样位置的信息，我们使用了学习的线性投影的之间的交叉注意力。结果是聚合的特征向量z。有关该特征聚合过程的可视化。最后，将z和z_q与q进行拼接，然后通过另一个基于全连接的ResNet架构，带有两个线性层头来预测占位概率和流向。

3 网络分析

在目标位置对进行插值操作；
使用该插值的特征向量来预测到特征图中其他位置的K个注意力偏移；
在偏移位置处对Z进行插值以获得更多的特征向量；
在所有插值的特征上执行交叉关注以生成最终特征向量Z；
并使用Z来预测每个查询点的占位率和流格。

4 总结

本文介绍了一种针对自动驾驶的联合感知和预测的统一方法，通过神经网络隐式地表示随时间变化的占位和流格。这种可查询的隐式表示能够更有效、更高效地向下游的运动规划器提供信息。

5 参考资料

[1]Ben Agro, Quinlan Sykora, Sergio Casas, Raquel Urtasun. Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving.CVPR.2023. [2] https://zhuanlan.zhihu.com/p/552854503

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。