ICLR2023 | 阿卜杜拉国王科技大学最新发布，3D表示新网络：多视图+点云！(2)

计算机视觉工坊 | 2023-08-22 19:56:20 阅读：1387

发布文章

引言

3D 计算机视觉和计算机图形学的一个基本问题是如何表示 3D 数据。鉴于深度学习在 2D 计算机视觉领域的成功推动了深度学习在 3D 视觉和图形领域的广泛采用，这个问题变得尤为重要。

事实上，深度网络已经在 3D 分类、3D 分割、3D 检测、3D 重建和新颖的视图合成。计算机视觉网络依赖于直接 3D 表示、图像上的间接 2D 投影或两者的混合。

直接方法对通常以点云、网格或体素表示的 3D 数据进行操作。
相比之下，间接方法通常渲染对象或场景的多个 2D 视图，并使用传统的基于 2D 图像的架构处理每个图像。人类视觉系统更接近这种用于 3D 理解的多视图间接方法，因为它接收渲染图像流而不是显式 3D 数据。

使用间接方法处理 3D 视觉任务具有三个主要优势：

(i) 成熟且可迁移的 2D 计算机视觉模型（CNN、Transformers 等）；
(ii) 用于预训练的大型和多样化标记图像数据集（例如 ImageNet)；
(iii) 多视图图像根据视角提供丰富的上下文特征，这与几何 3D 邻域特征不同。

多视图方法在 3D 形状分类和分割方面取得了令人印象深刻的性能。然而，多视图表示（尤其是密集预测）的挑战在于将每个视图的特征与 3D 点云正确聚合。需要进行适当的聚合以获得具有代表性的 3D 点云，每个点具有适用于典型点云处理管道的单个特征。

以前的多视图工作依赖于将像素映射到点后的启发式方法（例如平均或标签模式池化），或与体素的多视图融合。由于某些原因，此类设置可能不是最佳设置。

(i) 这种启发式方法可能会汇总从中获得的误导性预测信息任意观点。例如，从底部看一个对象并独立处理该视图，当与其他视图结合时，可能会携带有关该对象内容的错误信息。
(ii) 视图缺少几何 3D 信息。

为此，本文提出了一种新的混合 3D 数据结构，它继承了点云的优点（即紧凑性、灵活性和 3D 描述性），并利用了多视图投影丰富的感知特征的优势。将这种新表示称为多视图点云（或 Voint cloud），并在图 1 中进行了说明。

Voint cloud是一组 Voint，其中每个 Voint 是一组与视图相关的特征（视图特征），对应于3D 点云中的相同点。这些视图特征的基数可能因一个 Voint 而异。在表1 中，比较了一些广泛使用的 3D 表示和我们的 Voint cloud表示。

Voint cloud继承了显式 3D 点云的特征，这有助于学习用于各种视觉应用（例如点云分类和分割）的 Voint 表示。为了在新的 Voint 空间上部署深度学习，定义了 Voint 上的基本操作，例如池化和卷积。

基于这些操作，定义了一种构建 Voint 神经网络的实用方法，称之为 VointNet

VointNet 采用 Voint 云并输出点云特征以进行 3D 点云处理。
本文展示了学习这种 Voint 云表示如何在 ScanObjectNN 和 ShapeNet。

Contributions 主要贡献

(i) 本文提出了一种新颖的多视图3D点云表示方法，称为Voint cloud。在这种表示方法中，每个点（即Voint）由来自不同视角的一组特征表示。

(ii) 本文在Voint级别定义了池化和卷积运算，用于构建Voint神经网络（VointNet ）。VointNet 能够学习从Voint空间中的多个视图聚合信息。

(iii) 本文的VointNet 在多个3D理解任务上取得了最好的性能，包括3D形状分类、检索和稳健的部分分割。此外，VointNet 还实现了对遮挡和旋转的鲁棒性改进。通过引入Voint cloud表示和VointNet 网络，在处理3D点云数据时取得了显著的改进，并在多个任务中取得了优越的性能，提高了对复杂3D场景的理解和分析能力。