新闻  |   论坛  |   博客  |   在线研讨会
ICLR2023 | 阿卜杜拉国王科技大学最新发布,3D表示新网络:多视图+点云!(1)
计算机视觉工坊 | 2023-08-22 19:55:29    阅读:2226   发布文章

多视图投影方法在 3D 分类和分割等 3D 理解任务上表现出了良好的性能。然而,目前尚不清楚如何将这种多视图方法与广泛使用的 3D 点云相结合。

人类视觉系统更接近于使用多个视角的间接方法来理解3D物体,而不是直接处理3D数据。相比之下,间接方法通常通过渲染对象或场景的多个2D视图,并使用基于2D图像的传统架构来处理每个图像。人类视觉系统更接近于这种多视图间接方法,因为它接收到的是渲染图像流,而不是显式的3D数据。

引入了Voint cloud这个新的3D数据表示形式,并设计了VointNet 模型来学习和处理这种表示。Voint cloud将每个3D点表示为从多个视角提取的特征集合,以融合点云表示的紧凑性和多视图表示的自然感知能力。

作者通过定义在Voint级别的池化和卷积操作,构建了Voint neural network (VointNet ),并利用该网络在Voint空间学习3D表示。

简介

多视图投影方法在 3D 分类和分割等 3D 理解任务上表现出了良好的性能。然而,目前尚不清楚如何将这种多视图方法与广泛使用的 3D 点云相结合。以前的方法使用未学习的启发式方法在点级别组合特征。

为此,本文引入了多视点云(Voint cloud)的概念,将每个 3D 点表示为从多个视点提取的一组特征。这种新颖的 3D Voint 云表示结合了 3D 点云表示的紧凑性和多视图表示的自然视图感知。自然地,可以为这个新的表示配备卷积和池化操作。

通过部署一个 Voint 神经网络 (VointNet ) 来学习Voint 空间中的表征。学习的新颖表示在标准基准(ScanObjectNN、ShapeNet Core55 和 ShapeNetParts)的 3D 分类、形状检索和稳健的 3D 部件分割方面均实现了最先进的性能。

图片

图1: 3D Voint clouds。本文提出了多视图点云(Voint cloud),这是一种新颖的3D表示,它紧凑且自然地描述了3D点云的视图投影。

  • 3D云中的每个点都被标记为一个点,它会累积该点的视图特征。
  • 注意,并非所有的3D点在所有视图中都可见。Voint 的集合构成了一个Voint cloud。
笔者个人体会

作者的动机是解决在3D视觉任务中如何表示3D数据的问题。

  • 作者观察到在2D计算机视觉中,直接采用图像作为输入的方法取得了巨大的成功,而在3D视觉中,如何表示和处理3D数据仍然是一个挑战。

    尽管深度学习在2D计算机视觉中取得了巨大成功,但在3D视觉中,如何表示和处理3D数据仍然是一个挑战。

    3D计算机视觉和计算机图形学的一个基本问题是如何表示3D数据。深度学习在2D计算机视觉领域的成功,它在3D视觉和图形领域的广泛应用变得尤为重要。深度网络已经在多个3D任务上取得了成功,包括3D分类、3D分割、3D检测、3D重建和新颖视图合成。这些方法可以依赖于直接的3D表示、图像上的间接2D投影,或者两者的混合。直接方法操作通常以点云、网格或体素的形式表示的3D数据。

  • 作者认为间接的多视图方法更符合人类视觉系统的工作方式,因为人类接收到的是一系列渲染图像,而不是显式的3D数据。

    人类视觉系统更接近于使用多个视角的间接方法来理解3D物体,而不是直接处理3D数据。

    相比之下,间接方法通常通过渲染对象或场景的多个2D视图,并使用基于2D图像的传统架构来处理每个图像。人类视觉系统更接近于这种多视图间接方法,因为它接收到的是渲染图像流,而不是显式的3D数据。

  • 多视图方法在3D形状分类和分割任务中已经取得了令人印象深刻的性能。然而,在多视图表示中,如何正确聚合每个视图的特征是一个挑战。

    使用间接方法处理3D视觉任务具有三个主要优势:(i) 成熟且可迁移的2D计算机视觉模型(如CNN、Transformers等),(ii) 大型和多样化标记图像数据集的预训练支持(例如ImageNet),(iii) 多视图图像提供了丰富的上下文特征,根据视角提供信息,与几何3D邻域特征不同。

    多视图方法在3D形状分类和分割方面取得了令人印象深刻的性能。然而,多视图表示(特别是在密集预测任务中)的挑战在于如何正确地聚合每个视图的特征以获得具有代表性的3D点云。需要进行适当的聚合操作,以获得每个点具有适用于典型点云处理流程的单个特征。

  • 因此,动机是将多视图的思想与常用的3D点云表示相结合,以提高3D理解任务的性能。

    以前的多视图方法依赖于启发式方法,例如将像素映射到点后进行平均或池化,或者与体素进行多视图融合。然而,这种启发式方法存在一些问题:(i) 这种方法可能会汇总来自不同视角的误导性预测信息。例如,如果一个对象从底部视角独立处理,而与其他视角结合时会产生错误的信息。(ii) 视图缺乏几何3D信息。

    为了解决这些问题,提出了一种新的混合3D数据结构,它继承了点云的优点(紧凑性、灵活性和3D描述性),并利用了多视图投影丰富的感知特征。这种新的表示称为多视图点云(或Voint cloud)。

核心创新点

引入了Voint cloud这个新的3D数据表示形式,并设计了VointNet 模型来学习和处理这种表示。

  • Voint cloud将每个3D点表示为从多个视角提取的特征集合,以融合点云表示的紧凑性和多视图表示的自然感知能力。

    作者通过将每个点表示为从多个视角提取的特征集合,构建了Voint cloud这种新的表示形式。这种表示继承了点云表示的紧凑性和3D描述能力,并利用了多视图投影的丰富感知特征。

    Voint cloud是由一组Voint组成的,每个Voint都是与视图相关的特征(视图特征),对应于3D点云中的相同点。每个Voint中的视图特征的数量可能会有所不同。

    Voint cloud继承了显式3D点云的特性,这有助于学习适用于各种视觉任务(如点云分类和分割)的Voint表示。为了在新的Voint空间上应用深度学习,定义了一些基本操作,如池化和卷积。这些操作允许在Voint云上进行特征提取和处理。

  • 作者通过定义在Voint级别的池化和卷积操作,构建了Voint neural network (VointNet ),并利用该网络在Voint空间学习表示。

    通过定义在Voint级别的池化和卷积操作,作者设计了VointNet 模型,可以学习和处理Voint cloud表示。通过这种方式,作者旨在提高3D视觉任务的性能,并在标准基准测试中展示出最先进的性能。

    基于这些操作,提出了一种实用方法来构建Voint神经网络,称为VointNet 。VointNet 接受Voint cloud作为输入,并输出用于3D点云处理的点云特征。并展示了学习这种Voint cloud表示如何在ScanObjectNN和ShapeNet等数据集上产生良好的结果。通过VointNet 能够有效地处理和分析3D点云数据,并为各种任务提供丰富的特征表示。

设计思路
  • 通过将每个点从不同视角的特征进行聚合,构建一个点云的紧凑而丰富的表示形式。
  • 作者定义了Voint cloud的数据结构和基本操作,并在此基础上设计了VointNet 模型。
  • VointNet 接受Voint cloud作为输入,输出适用于3D点云处理的点云特征。
  • 为了实现这个方法,作者在大规模的数据集上进行了实验和评估,并与其他方法进行了比较。

该方法的好处:

  1. 继承了点云表示的紧凑性和3D描述能力,同时利用了多视图投影的丰富感知特征。
  2. 可以利用现有的2D计算机视觉模型和大规模图像数据集进行预训练,从而实现模型的迁移和加速训练过程。
  3. 通过Voint cloud的池化和卷积操作,可以更好地融合来自多个视角的信息,从而提高3D理解任务的性能。
  4. 在标准基准测试中,该方法取得了最先进的性能,表明它在3D分类、检索和分割等任务上具有优越性能。
  5. 对于遮挡和旋转等问题,该方法也展现出更好的鲁棒性。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客