ICLR2023 | 2D Transformer 可以帮助3D表示学习吗？（3）

计算机视觉工坊 | 2023-07-04 21:26:03 阅读：527

发布文章

三、预备知识3.1 基于Transformer的3D点云表示

与规则网格上的图像不同，点云被认为是不规则和结构较弱的。许多工作致力于为点云数据设计深度学习架构，利用点集的排列和平移不变性进行特征学习。

不仅仅依赖于这样的专门主干，还利用Transformer主干，这样更容易与其他模态（如图像和语言）统一，并促进跨模态的知识传递。
使用专门的点网络计算局部几何块嵌入，并将其馈送给Transformer以输出更有效的几何表示。

局部几何块嵌入

假设有一个点云，其中N个坐标编码在笛卡尔空间中，

按照Yu等人（2022）的方法，首先使用最远点采样（FPS）选择个种子点。
然后将点云 P 分组为个邻域，其中种子点集的中心作为组的中心。每个邻域包含 K 个点，这些点是通过搜索对应种子点的K个最近邻点生成的。
在每个种子点周围计算局部几何特征，通过在邻域内对每个点的特征进行最大池化得到：

其中：

是一个具有参数 θ 的点特征提取器，例如中的逐点MLP，是邻域中第 j 个邻点的特征。
将邻域特征作为标记特征，用于输入接下来的Transformer块。

Transformer点特征编码

使用标准的Transformer块作为编码器，进一步转换局部块嵌入，其中C是嵌入大小。

按照Yu等人的方法，使用一个具有可学习参数ρ的两层MLP 作为位置嵌入，应用于每个块以实现稳定的训练。

式中，MSA表示多头自注意的交替层，LN表示分层范数，MLP为两层，其中GELU为非线性。是一种可学习的全局表示嵌入，以作为其可学习的位置嵌入。

3.2 知识蒸馏：掩码建模的统一视角

掩码建模可以看作是经典自编码器（DAE）的扩展，其中采用了掩码损失，最近已经在语言模型和视觉领域进行了探索。

形式上，给定一个由个 token 组成的序列，例如RGB图像或点云数据的标记嵌入。
目标是训练一个学生编码器来预测/重建来自教师编码器的输出，其中教师可以是离散变分自编码器（dVAE）或简单的恒等映射。

通过这种方式，学生在教师的指导下学习数据中的深层知识。

为了损坏输入数据，为每个位置生成一组掩码，指示标记是否被掩码。
使用可学习的损坏嵌入来替换被掩码的位置，将损坏的表示输入到编码器或****。这里，表示Hadamard乘积，是指示函数。

在某个度量空间中定义了距离函数，作为****，目标是最小化以下距离：

****随着建模目标的不同而变化，例如，它是BERT的非线性投影，带有softmax ，其中度量函数变成交叉熵。可以看作是掩模建模的统一公式。

因此，考虑如何在掩码3D建模中建立一个知识渊博的老师是很自然的。作者的想法是利用2D或语言基础模型中的跨模式教师。

四、ACT: 自编码器作为跨模态教师

目标是通过预训练的2D图像或语言Transformer来促进3D表示学习，该模型具备从大规模数据中吸收的深层知识。

然而，3D点云与2D图像或语言具有不同的结构，这使得细粒度知识的关联变得困难。

为了解决这个问题，采用了一个两阶段的训练过程。ACT框架的概述如图1所示。

阶段I：调整预训练的2D或语言Transformer作为3D自编码器，通过自监督的提示调整来学习理解3D几何。
阶段II：使用预训练的3D自编码器作为跨模态教师，通过掩码建模将潜在特征蒸馏到3D点云Transformer学生中。

4.1 3D自编码与预训练基础Transformer

Transformer是最近在各个领域中主导的架构，可以以统一的方式对任何模态的序列数据进行建模。

因此，可以直接使用预训练的Transformer块，将顺序标记与输入点云的3D位置嵌入一起进行输入。
本文使用轻量级的DGCNN对点云进行处理，其中的边缘卷积层通过参数 θ 表示。

跨模态嵌入与提示

首先，使用DGCNN风格的补丁嵌入网络对点云进行编码，产生一组标记嵌入：。
然后，通过提示这些标记嵌入，并将其输入到预训练且冻结的Transformer块的D层中，例如2D Transformer：。在这里，使用来表示 2DTransformer 的第层。

使用个可学习的提示嵌入，应用于Transformer 的每一层。具体来说，Transformer的第层将隐含表示从第层转换为，如下所示:

使用这种参数高效的快速调整策略，能够调整预训练的基础Transformer，同时保留尽可能多的预训练知识。

点云自编码

另一个DGCNN网络用于从基础Transformer嵌入的隐藏表示中提取局部几何特征。然后，利用FoldingNet 对输入点云进行重构。

将以上3D自编码器作为离散变分自编码器（dVAE）进行训练，以最大化对数似然。这里表示原始和重构的点云。

整体优化目标是最大化证据下界（ELBO），当时成立：

其中：

表示离散的3D dVAE tokenizer；
是给定离散点标记的dVAE****；
以自编码方式重构输入点云。

4.2 掩码点建模作为跨模态的知识蒸馏

通过训练3D自编码器，预训练Transformer的强表示被转化为3D特征空间，使自编码器自动成为一个跨模态教师。

将在4.1节中介绍的预训练点云编码器作为教师，将3D Transformer 作为学生。

通过掩码建模作为跨模态知识蒸馏，最小化编码后的教师特征与学生特征之间的负余弦相似度 :

五、实验5.1下游任务迁移学习迁移学习设置

在分类任务中使用迁移学习的三种变体:

(a) FULL: 通过更新所有骨干和分类头来微调预训练模型。

(b) MLP- linear: 分类头是单层线性MLP，只在微调时更新该分类头参数。

3D真实数据集分类

首先展示了在具有挑战性的现实数据集ScanObjectNN上对3D形状识别的评估。结果如表2所示，其中可以观察到:

(i) 与FULL调优协议下从头开始的Transformer基线相比，ACT在三个不同的ScanObjectNN基准测试上平均获得了+10.4%的显着改进。此外，通过简单的点云旋转，ACT实现了+11.9%的平均改进;

(ii) 与明确以三维几何理解为目的设计的方法相比，ACT`始终取得更好的结果。

(iii) 与其他自监督学习(SSL)方法相比，在ScanObjectNN上，ACT在所有方法中实现了最好的泛化。此外，在ScanObjectNN上使用纯3D Transformer架构的方法中，ACT成功地达到了最先进(SOTA)的性能，例如，在最具挑战性的PB_T50_RS基准测试中，ACT比Point-MAE的准确率高出+3.0%。

表2:ScanObjectNN上的分类结果。our1:没有数据增强的训练结果。
Ours2:简单点云旋转训练的结果。DA:在微调训练期间使用数据增强。报告总体精度，即OA(%)。

3D场景分割

大规模3D场景的语义分割具有挑战性，需要对上下文语义和局部几何关系的理解。在表4中，报告了S3DIS数据集的结果。可以看到:

(i) ACT显著提高了从零开始的基线，mAcc和mIoU分别提高了+2.5%和+1.2%。

(ii) ACT比SSL对应的Point-MAE分别高出+1.2%和+0.4%的mAcc和mIoU，在大场景数据集上显示出优越的传输能力。

(iii) 仅使用几何输入xyz, ACT可以实现与使用xyz+rgb数据进行细致设计的架构相当或更好的性能，包括3d特定的Transformer架构。

表4:S3DIS区域5上的语义分割结果。报告了所有类别的平均准确性和平均IoU，即mAcc(%)和mIoU(%)。使用Xyz:点云坐标。xyz+rgb:同时使用坐标和rgb颜色。

3D合成数据集分类

展示了在合成数据集ModelNet40上对三维形状分类的评估。为了证明在有限的训练样例下ACT的数据效率特性，首先遵循Sharma & Kaul(2020)来评估 few-shot 学习。

从表5中，可以看到:

(i) 与从头开始的FULL转移基线相比，ACT在四种设置下分别带来了+9.0%，+4.7%，+8.7%，+6.2%的显着改进。

(ii) 与其他SSL方法相比，ACT始终实现最佳性能。

然后，在表3中展示了完整数据集上的结果，在表3中我们观察到，与FULL协议下的从头基线相比，ACT实现了+2.5%的准确率提高，并且结果与所有协议中的其他自监督学习方法相当或更好。

表3:ModelNet40数据集上的分类结果。报告总体精度，即OA(%)。[ST]:标准Transformer架构。

表5:在ModelNet40上的Few-shot分类，报告了总体准确率(%)。

5.2 消融研究****深度

表6展示了使用不同****深度的ACT在ScanObjectNN上的平均微调准确率。可以看出，性能对****深度不敏感，我们发现具有2个块的****取得了最高的结果。

需要注意的是，当****深度为0时，我们采用了类似BERT的掩码建模架构，其中没有****，编码器可以看到所有的标记，包括被掩码的标记。
我们发现这导致了较差的结果，与在2D上观察到的数据的低语义性需要一个非平凡****的观察一致。

表6: 预训练****深度的消融研究。

图2: 掩码比消融研究和跨模 Transformer 教师选择。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。