"); //-->
图2(a)展示了使用不同掩码策略在ScanObjectNN上的平均微调准确率。
此外,令人惊讶的是,ACT使用语言模型BERTB(即BERTbase)作为跨模态教师,可以达到平均准确率85.12±0.54%(最高可达85.88%),这表明ACT可以推广到任何模态。
表7: dVAE标记器不同训练策略的消融研究。
- 报告了F-Score,使用l1范数和l2范数的倒角距离,即CD- l1和CD- l2
表7展示了使用预训练的2D图像Transformer进行不同训练配置的3D自编码器的重构结果。观察到:
(i)带有预训练图像Transformer的3D dVAE模型在重构结果上明显优于Point-BERT。这表明预训练的2D图像Transformer具有强大的对3D的表示能力。
(ii) 提示调整或冻结模型可以获得比完全调整更好的结果,我们认为这是因为某些预训练的2D知识被遗忘了,而提示调整有效地解决了这个问题。重构可视化结果可以在附录D中找到。
为了了解预训练的2D图像Transformer在3D dVAE模型中的必要性,我们用不同的dVAE教师和掩模建模配置进行了实验。
从表8中,可以看到:
(i) 当使用没有预训练的2D图像变压器的Point-BERT dVAE模型时,通过提取潜在特征而不是离散令牌,可以实现+0.62%的改进。分析认为,离散令牌识别学习起来更具挑战性3D数据。
(ii) 当使用Point-BERT离散标记作为掩码建模目标时,通过应用带有预训练2D图像Transformer的dVAE模型,得到了最差的性能。这表明,无论标记器有多强大,离散标记都不适用于语义稀疏的点云数据。
(iii) 当使用ACT时,性能显著提高。这表明,带有预训练2D图像Transformer`的3D dVAE能够编码具有丰富语义的特征,更适合于掩码点建模。
表10: 二维图像转换器在dVAE模型中不同位置嵌入的研究。
(a)无:不使用位置嵌入。(b) 2D/z:仅使用2D xy平面坐标的位置嵌入。
(c) 3D:所有3D xyz坐标的位置嵌入。
报告了F-Score,使用l1范数和l2范数的倒角距离,即CD- l1和CD-l2,以及ScanObjectNN上的OA。
由于ACT使用编码特征作为掩码建模目标,它具有将我们的方法作为辅助特征蒸馏的潜力。
表9显示了在Point-MAE模型中,使用ACT作为中间特征的辅助深度监督训练的结果,其中ACT编码的潜在特征被蒸馏到Point-MAE的编码器特征中。
可以观察到,ACT能够显著提高Point-MAE在ScanObjectNN上的准确率,提高了0.87%,表明ACT作为一种知识蒸馏方法具有可扩展性和有效性。
6.3 2D Vision Transformer如何理解3D点云?为了更好地理解2D图像Transformer如何通过自编码器训练理解3D输入,研究了ViT-B在我们的ACT dVAE模型中使用的位置嵌入的效果。从表10可以看出:
(i) 在没有任何位置嵌入的情况下,预训练的ViT仍然可以学习可迁移的3D特征(准确率为84.21±0.45%)。我们认为这是因为位置几何信息已经包含在输入的3D坐标中,预训练的2D Transformer可以通过几何特征纯粹处理3D数据,而不需要显式的位置提示。
(ii) 当仅使用2D xy平面坐标的位置嵌入时,准确率显著提高了0.89%。我们认为2D位置嵌入是为了适应冻结的图像Transformer而学习的,使图像Transformer能够将3D输入编码为具有高语义的预训练2D特征空间。
(iii) 当使用所有3D坐标进行位置嵌入时,2D图像Transformer成功利用了附加坐标信息来进行更好的特征编码。
本文提出了一种自监督学习框架ACT,通过预训练的基础Transformer进行掩码建模,将特征蒸馏传递给3D Transformer学生模型。ACT首先通过自监督的3D自编码将预训练的基础Transformer转化为跨模态的3D教师模型。
然后,来自调整后的3D自编码器的语义丰富的潜在特征被用作3D Transformer学生模型的掩码建模目标,展现了在各种下游3D任务上卓越的泛化性能。作为一种通用的自监督学习框架,相信ACT可以轻松扩展到除3D数据之外的其他模态。
这种自监督方式展示了跨模态知识转移的巨大潜力,这可能在数据驱动的深度学习时代极大地促进了基础建模的发展。
图3比较了基于2D图像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建结果。
图4显示了t-SNE在ShapeNet上进行预训练并在ModelNet40和ScanObjectNN PB_T50_RS数据集上进行微调后的模型特征可视化。
可以观察到:
(i) 在ShapeNet上进行预训练后,由于相对较小的域间隙,模型已经可以在ModelNet上产生判别特征。
(ii) 在对下游数据集进行微调后,在ModelNet40和具有挑战性的ScanObjectNN数据集上都获得了判别特征。
(iii) Shapenet预训练ACT在ScanObjectNN上提取的特征分布看起来不那么判别性。我们认为有两个原因导致它: (i)合成的ShapeNet和真实的ScanObjectNN数据集之间的大域差距,以及(ii) ACT使用的不是对比损失,例如区分(例如,Point-BERT使用的MoCo损失)。有趣的是,这在ScanObjectNN上产生了更好的泛化性能(ACT的OA为88.21%,而Point-BERT为83.07%)。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。