"); //-->
近年来,数据驱动的深度学习在人工智能系统中得到广泛应用。计算硬件的进步极大地推动了机器智能的发展,并促进了一种新兴的范式,即基于广泛数据训练的模型的知识转移。
与2D视觉和NLP相比,基于基础的视觉计算在3D社区中发展滞后。提出以下问题:是什么使得3D表示学习比2D视觉或NLP更具挑战性?
从以下三个角度提供一些分析性答案:
i. 架构不统一。先驱性架构如PointNet只能对3D坐标进行编码,而无法应用于在NLP和2D视觉中取得成功的掩码去噪自编码(DAE)。然而,Transformer架构现在已经弥补了这种架构上的差距,实现了跨所有模态格式的统一表示,并为扩展3D中的DAE带来了巨大潜力。
ii. 数据稀缺。与图像和自由形式语言相比,收集和标注3D或4D数据更加困难,通常需要更昂贵且密集的工作。此外,考虑到数据规模,3D数据严重匮乏。这促使了跨模态知识转移的使用。最近的研究要么与其他模态一起进行联合训练以实现更有效的对比,要么直接对在图像数据上预训练的2D Transformers进行微调。
iii. 模式差异。表1显示了语言、2D图像和3D点云的数据模式比较。可以观察到:
在上述分析的推动下,作者提出了将Autoencoders作为跨模态教师进行训练。
因此,ACT使预训练的Transformers成为自发的跨模态教师,为3D点云提供了语义丰富的掩码建模目标。
此外,进行了各种任务的大量实验证明了ACT预训练3D Transformers具有出色的泛化性能。
据知,本文首次证明了预训练的基础Transformer可以帮助3D表示学习,而无需访问任何2D、语言数据或3D下游标注。ACT是一个自监督的框架,可以推广到其他模态和任务,期望这能够推动更多类似ACT风格的表示学习的探索。
表1: 数据模式比较
自监督的3D几何处理表示学习目前在学术界引起了极大的兴趣。
传统方法是基于重建的几何理解预任务构建的,例如点云部分重排序,方向估计,局部和全局重建,流一致性,变形和遮挡。
与此同时,Xie等人在PointContrast中提出了学习增强点云之间的区分性视角一致性的方法。在这个方向上,还提出了许多相关工作。
最近,许多工作提出了应用点云Transformer的自编码器(DAE)预训练的方法,并取得了显着的成功。
作者遵循这种DAE-style表示学习范式,但与之前的方法不同,工作旨在使用由预训练基础Transformer编码的潜在特征作为掩码建模目标。
跨模态的3D表示学习跨模态的3D表示学习旨在利用除了3D点云之外的更多模态内在的学习信号,例如,2D图像被认为具有丰富的上下文和纹理知识,而自由形式的语言则具有密集的语义信息。主流方法基于全局特征匹配的对比学习进行开发。
通过利用几何先验信息进行密集关联,另一项工作探索了细粒度的局部特征匹配。
最近,通过直接使用经过监督微调的预训练2D图像编码器取得了很大的进展。
一些工作也探索了预训练基础模型是否可以帮助3D学习。然而,本文作者的方法:
(1)不使用预训练的2D或语言模型作为推断的主干模型;
(2)在无下游3D标注的自监督预训练过程中探索使用来自其他模态的预训练基础模型;
(3)不需要成对的点-图像或点-语言数据。
除了2D图像之外,还有一些工作提出利用自然语言进行对比的3D表示学习,零样本学习,以及场景理解。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。