"); //-->
与规则网格上的图像不同,点云被认为是不规则和结构较弱的。许多工作致力于为点云数据设计深度学习架构,利用点集的排列和平移不变性进行特征学习。
不仅仅依赖于这样的专门主干,还利用Transformer主干,这样更容易与其他模态(如图像和语言)统一,并促进跨模态的知识传递。
使用专门的点网络计算局部几何块嵌入,并将其馈送给Transformer以输出更有效的几何表示。
假设有一个点云 ,其中N个坐标编码在 笛卡尔空间中,
其中:
使用标准的Transformer块作为编码器,进一步转换局部块嵌入 ,其中C是嵌入大小。
按照Yu等人的方法,使用一个具有可学习参数ρ的两层MLP 作为位置嵌入,应用于每个块以实现稳定的训练。
式中,MSA表示多头自注意的交替层,LN表示分层范数,MLP为两层,其中GELU为非线性。 是一种可学习的全局表示嵌入,以 作为其可学习的位置嵌入。
3.2 知识蒸馏:掩码建模的统一视角掩码建模可以看作是经典自编码器(DAE)的扩展,其中采用了掩码损失,最近已经在语言模型和视觉领域进行了探索。
通过这种方式,学生在教师的指导下学习数据中的深层知识。
为了损坏输入数据,为每个位置生成一组掩码 ,指示标记是否被掩码。
使用可学习的损坏嵌入 来替换被掩码的位置,将损坏的表示 输入到编码器或****。这里,表示Hadamard乘积, 是指示函数。
在某个度量空间 中定义了距离函数 ,作为****,目标是最小化以下距离:
****随着建模目标的不同而变化,例如,它是BERT的非线性投影,带有softmax ,其中度量函数变成交叉熵。可以看作是掩模建模的统一公式。
因此,考虑如何在掩码3D建模中建立一个知识渊博的老师是很自然的。作者的想法是利用2D或语言基础模型中的跨模式教师。
目标是通过预训练的2D图像或语言Transformer来促进3D表示学习,该模型具备从大规模数据中吸收的深层知识。
然而,3D点云与2D图像或语言具有不同的结构,这使得细粒度知识的关联变得困难。
为了解决这个问题,采用了一个两阶段的训练过程。ACT框架的概述如图1所示。
Transformer是最近在各个领域中主导的架构,可以以统一的方式对任何模态的序列数据进行建模。
使用 个可学习的提示嵌入 ,应用于Transformer 的每一层。具体来说,Transformer的第 层 将隐含表示 从第 层转换为 ,如下所示:
使用这种参数高效的快速调整策略,能够调整预训练的基础Transformer,同时保留尽可能多的预训练知识。
点云自编码另一个DGCNN网络 用于从基础Transformer嵌入的隐藏表示中提取局部几何特征。然后,利用FoldingNet 对输入点云进行重构。
将以上3D自编码器作为离散变分自编码器(dVAE)进行训练,以最大化对数似然 。这里 表示原始和重构的点云。
整体优化目标是最大化证据下界(ELBO),当时成立:
其中:
通过训练3D自编码器,预训练Transformer的强表示被转化为3D特征空间,使自编码器自动成为一个跨模态教师。
将在4.1节中介绍的预训练点云编码器作为教师 ,将3D Transformer 作为学生。
通过掩码建模作为跨模态知识蒸馏,最小化编码后的教师特征与学生特征之间的负余弦相似度 :
在分类任务中使用迁移学习的三种变体:
(a) FULL: 通过更新所有骨干和分类头来微调预训练模型。
(b) MLP- linear: 分类头是单层线性MLP,只在微调时更新该分类头参数。
(c) MLP-3: 分类头是一个三层非线性MLP(与FULL中使用的相同),只在微调时更新这个头的参数。
3D真实数据集分类首先展示了在具有挑战性的现实数据集ScanObjectNN上对3D形状识别的评估。结果如表2所示,其中可以观察到:
(i) 与FULL调优协议下从头开始的Transformer基线相比,ACT在三个不同的ScanObjectNN基准测试上平均获得了+10.4%的显着改进。此外,通过简单的点云旋转,ACT实现了+11.9%的平均改进;
(ii) 与明确以三维几何理解为目的设计的方法相比,ACT`始终取得更好的结果。
(iii) 与其他自监督学习(SSL)方法相比,在ScanObjectNN上,ACT在所有方法中实现了最好的泛化。此外,在ScanObjectNN上使用纯3D Transformer架构的方法中,ACT成功地达到了最先进(SOTA)的性能,例如,在最具挑战性的PB_T50_RS基准测试中,ACT比Point-MAE的准确率高出+3.0%。
表2:ScanObjectNN上的分类结果。our1:没有数据增强的训练结果。
Ours2:简单点云旋转训练的结果。DA:在微调训练期间使用数据增强。报告总体精度,即OA(%)。
大规模3D场景的语义分割具有挑战性,需要对上下文语义和局部几何关系的理解。在表4中,报告了S3DIS数据集的结果。可以看到:
(i) ACT显著提高了从零开始的基线,mAcc和mIoU分别提高了+2.5%和+1.2%。
(ii) ACT比SSL对应的Point-MAE分别高出+1.2%和+0.4%的mAcc和mIoU,在大场景数据集上显示出优越的传输能力。
(iii) 仅使用几何输入xyz, ACT可以实现与使用xyz+rgb数据进行细致设计的架构相当或更好的性能,包括3d特定的Transformer架构。
表4:S3DIS区域5上的语义分割结果。报告了所有类别的平均准确性和平均IoU,即mAcc(%)和mIoU(%)。使用Xyz:点云坐标。xyz+rgb:同时使用坐标和rgb颜色。
展示了在合成数据集ModelNet40上对三维形状分类的评估。为了证明在有限的训练样例下ACT的数据效率特性,首先遵循Sharma & Kaul(2020)来评估 few-shot 学习。
从表5中,可以看到:
(i) 与从头开始的FULL转移基线相比,ACT在四种设置下分别带来了+9.0%,+4.7%,+8.7%,+6.2%的显着改进。
(ii) 与其他SSL方法相比,ACT始终实现最佳性能。
然后,在表3中展示了完整数据集上的结果,在表3中我们观察到,与FULL协议下的从头基线相比,ACT实现了+2.5%的准确率提高,并且结果与所有协议中的其他自监督学习方法相当或更好。
表3:ModelNet40数据集上的分类结果。报告总体精度,即OA(%)。[ST]:标准Transformer架构。
表5:在ModelNet40上的Few-shot分类,报告了总体准确率(%)。
表6展示了使用不同****深度的ACT在ScanObjectNN上的平均微调准确率。可以看出,性能对****深度不敏感,我们发现具有2个块的****取得了最高的结果。
需要注意的是,当****深度为0时,我们采用了类似BERT的掩码建模架构,其中没有****,编码器可以看到所有的标记,包括被掩码的标记。
我们发现这导致了较差的结果,与在2D上观察到的数据的低语义性需要一个非平凡****的观察一致。
表6: 预训练****深度的消融研究。
图2: 掩码比 消融研究和跨模 Transformer 教师选择。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。