ICLR2023 | 阿卜杜拉国王科技大学最新发布，3D表示新网络：多视图+点云！(1)

计算机视觉工坊 | 2023-08-22 19:55:29 阅读：2355

多视图投影方法在 3D 分类和分割等 3D 理解任务上表现出了良好的性能。然而，目前尚不清楚如何将这种多视图方法与广泛使用的 3D 点云相结合。
人类视觉系统更接近于使用多个视角的间接方法来理解3D物体，而不是直接处理3D数据。相比之下，间接方法通常通过渲染对象或场景的多个2D视图，并使用基于2D图像的传统架构来处理每个图像。人类视觉系统更接近于这种多视图间接方法，因为它接收到的是渲染图像流，而不是显式的3D数据。
引入了Voint cloud这个新的3D数据表示形式，并设计了VointNet 模型来学习和处理这种表示。Voint cloud将每个3D点表示为从多个视角提取的特征集合，以融合点云表示的紧凑性和多视图表示的自然感知能力。
作者通过定义在Voint级别的池化和卷积操作，构建了Voint neural network (VointNet )，并利用该网络在Voint空间学习3D表示。

简介

多视图投影方法在 3D 分类和分割等 3D 理解任务上表现出了良好的性能。然而，目前尚不清楚如何将这种多视图方法与广泛使用的 3D 点云相结合。以前的方法使用未学习的启发式方法在点级别组合特征。

为此，本文引入了多视点云（Voint cloud）的概念，将每个 3D 点表示为从多个视点提取的一组特征。这种新颖的 3D Voint 云表示结合了 3D 点云表示的紧凑性和多视图表示的自然视图感知。自然地，可以为这个新的表示配备卷积和池化操作。

通过部署一个 Voint 神经网络 (VointNet ) 来学习Voint 空间中的表征。学习的新颖表示在标准基准（ScanObjectNN、ShapeNet Core55 和 ShapeNetParts）的 3D 分类、形状检索和稳健的 3D 部件分割方面均实现了最先进的性能。

图1: 3D Voint clouds。本文提出了多视图点云(Voint cloud)，这是一种新颖的3D表示，它紧凑且自然地描述了3D点云的视图投影。
3D云中的每个点都被标记为一个点，它会累积该点的视图特征。
注意，并非所有的3D点在所有视图中都可见。Voint 的集合构成了一个Voint cloud。

笔者个人体会

作者的动机是解决在3D视觉任务中如何表示3D数据的问题。

作者观察到在2D计算机视觉中，直接采用图像作为输入的方法取得了巨大的成功，而在3D视觉中，如何表示和处理3D数据仍然是一个挑战。
尽管深度学习在2D计算机视觉中取得了巨大成功，但在3D视觉中，如何表示和处理3D数据仍然是一个挑战。
3D计算机视觉和计算机图形学的一个基本问题是如何表示3D数据。深度学习在2D计算机视觉领域的成功，它在3D视觉和图形领域的广泛应用变得尤为重要。深度网络已经在多个3D任务上取得了成功，包括3D分类、3D分割、3D检测、3D重建和新颖视图合成。这些方法可以依赖于直接的3D表示、图像上的间接2D投影，或者两者的混合。直接方法操作通常以点云、网格或体素的形式表示的3D数据。
作者认为间接的多视图方法更符合人类视觉系统的工作方式，因为人类接收到的是一系列渲染图像，而不是显式的3D数据。
人类视觉系统更接近于使用多个视角的间接方法来理解3D物体，而不是直接处理3D数据。
相比之下，间接方法通常通过渲染对象或场景的多个2D视图，并使用基于2D图像的传统架构来处理每个图像。人类视觉系统更接近于这种多视图间接方法，因为它接收到的是渲染图像流，而不是显式的3D数据。
多视图方法在3D形状分类和分割任务中已经取得了令人印象深刻的性能。然而，在多视图表示中，如何正确聚合每个视图的特征是一个挑战。
使用间接方法处理3D视觉任务具有三个主要优势：(i) 成熟且可迁移的2D计算机视觉模型（如CNN、Transformers等），(ii) 大型和多样化标记图像数据集的预训练支持（例如ImageNet），(iii) 多视图图像提供了丰富的上下文特征，根据视角提供信息，与几何3D邻域特征不同。
多视图方法在3D形状分类和分割方面取得了令人印象深刻的性能。然而，多视图表示（特别是在密集预测任务中）的挑战在于如何正确地聚合每个视图的特征以获得具有代表性的3D点云。需要进行适当的聚合操作，以获得每个点具有适用于典型点云处理流程的单个特征。
因此，动机是将多视图的思想与常用的3D点云表示相结合，以提高3D理解任务的性能。
以前的多视图方法依赖于启发式方法，例如将像素映射到点后进行平均或池化，或者与体素进行多视图融合。然而，这种启发式方法存在一些问题：(i) 这种方法可能会汇总来自不同视角的误导性预测信息。例如，如果一个对象从底部视角独立处理，而与其他视角结合时会产生错误的信息。(ii) 视图缺乏几何3D信息。
为了解决这些问题，提出了一种新的混合3D数据结构，它继承了点云的优点（紧凑性、灵活性和3D描述性），并利用了多视图投影丰富的感知特征。这种新的表示称为多视图点云（或Voint cloud）。

核心创新点

引入了Voint cloud这个新的3D数据表示形式，并设计了VointNet 模型来学习和处理这种表示。

Voint cloud将每个3D点表示为从多个视角提取的特征集合，以融合点云表示的紧凑性和多视图表示的自然感知能力。
作者通过将每个点表示为从多个视角提取的特征集合，构建了Voint cloud这种新的表示形式。这种表示继承了点云表示的紧凑性和3D描述能力，并利用了多视图投影的丰富感知特征。
Voint cloud是由一组Voint组成的，每个Voint都是与视图相关的特征（视图特征），对应于3D点云中的相同点。每个Voint中的视图特征的数量可能会有所不同。
Voint cloud继承了显式3D点云的特性，这有助于学习适用于各种视觉任务（如点云分类和分割）的Voint表示。为了在新的Voint空间上应用深度学习，定义了一些基本操作，如池化和卷积。这些操作允许在Voint云上进行特征提取和处理。
作者通过定义在Voint级别的池化和卷积操作，构建了Voint neural network (VointNet )，并利用该网络在Voint空间学习表示。
通过定义在Voint级别的池化和卷积操作，作者设计了VointNet 模型，可以学习和处理Voint cloud表示。通过这种方式，作者旨在提高3D视觉任务的性能，并在标准基准测试中展示出最先进的性能。
基于这些操作，提出了一种实用方法来构建Voint神经网络，称为VointNet 。VointNet 接受Voint cloud作为输入，并输出用于3D点云处理的点云特征。并展示了学习这种Voint cloud表示如何在ScanObjectNN和ShapeNet等数据集上产生良好的结果。通过VointNet 能够有效地处理和分析3D点云数据，并为各种任务提供丰富的特征表示。

设计思路

通过将每个点从不同视角的特征进行聚合，构建一个点云的紧凑而丰富的表示形式。
作者定义了Voint cloud的数据结构和基本操作，并在此基础上设计了VointNet 模型。
VointNet 接受Voint cloud作为输入，输出适用于3D点云处理的点云特征。
为了实现这个方法，作者在大规模的数据集上进行了实验和评估，并与其他方法进行了比较。

该方法的好处：

继承了点云表示的紧凑性和3D描述能力，同时利用了多视图投影的丰富感知特征。
可以利用现有的2D计算机视觉模型和大规模图像数据集进行预训练，从而实现模型的迁移和加速训练过程。
通过Voint cloud的池化和卷积操作，可以更好地融合来自多个视角的信息，从而提高3D理解任务的性能。
在标准基准测试中，该方法取得了最先进的性能，表明它在3D分类、检索和分割等任务上具有优越性能。
对于遮挡和旋转等问题，该方法也展现出更好的鲁棒性。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。