ICLR2023 | 2D Transformer 可以帮助3D表示学习吗？（1）

计算机视觉工坊 | 2023-07-04 21:24:42 阅读：334

笔者个人体会

这篇论文的动机是解决3D数据表示学习中存在的挑战，即3D数据与2D图像或语言具有不同的结构，使得在细粒度知识的关联方面存在困难。作者希望通过自监督学习的方式，将来自图像领域的丰富知识应用于3D数据的表示学习中，从而提高3D任务的性能。作者提出一种自监督学习框架，用于跨模态的知识传递和特征蒸馏，以改善3D数据的表示学习和下游任务性能。

核心创新点是框架中的ACT（Autoencoding Cross-Transformers），它将预训练的基础Transformer模型转化为跨模态的3D教师模型，并通过自编码和掩码建模将教师模型的特征蒸馏到3D Transformer学生模型中。

作者通过以下方式设计和实现ACT框架：

首先，使用3D自编码器将预训练的基础Transformer转化为3D教师模型。这个自编码器通过自监督训练从3D数据中学习特征表示，并生成语义丰富的潜在特征。
接着，设计了掩码建模方法，其中教师模型的潜在特征被用作3D Transformer学生模型的掩码建模目标。学生模型通过优化掩码建模任务来学习表示，以捕捉3D数据中的重要特征。
使用预训练的2D图像Transformer作为教师模型，因为它们在2D图像领域表现出色，并且作者认为它们可以学习迁移的3D特征。

ACT框架包括以下主要部分：

预训练的2D图像或语言Transformer：作为基础Transformer模型，具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型，例如Vision Transformers (ViTs) 或者语言模型（如BERT）。
训练：使用大规模的2D图像或语言数据集进行预训练，通过自监督学习任务（如自编码器或掩码建模）来学习模型的特征表示能力。
3D自动编码器：通过自监督学习，将2D图像或语言Transformer调整为3D自动编码器，用于学习3D几何特征。作者将预训练的2D图像或语言Transformer模型转换为3D自动编码器。通过将2D模型的参数复制到3D模型中，并添加适当的层或模块来处理3D数据。
使用3D数据集进行自监督学习，例如预测点云数据的遮挡部分、点云重建或其他3D任务。通过自监督学习任务，3D自动编码器可以学习到3D数据的几何特征。
跨模态教师模型：将预训练的3D自动编码器作为跨模态教师模型，通过掩码建模的方式将潜在特征传递给3D Transformer学生模型。
特征传递：通过掩码建模的方式，将3D自动编码器的潜在特征传递给3D Transformer学生模型。教师模型生成的潜在特征被用作学生模型的蒸馏目标，以引导学生模型学习更好的3D表示。
3D Transformer学生模型：接收来自教师模型的潜在特征，并用于学习3D数据的表示。
特征蒸馏：学生模型通过特征蒸馏的方式，利用教师模型的潜在特征作为监督信号，从而学习到更准确和具有丰富语义的3D表示。

这种设计和实现带来了多个好处：

ACT框架能够实现跨模态的知识传递，将来自图像领域的知识应用于3D数据中的表示学习，提高了3D任务的性能。
通过使用预训练的2D图像Transformer作为教师模型，ACT能够利用图像领域已有的丰富特征表示，提供更有语义的特征编码。
自编码和掩码建模任务使得学生模型能够通过无监督学习捕捉3D数据中的重要特征，从而更好地泛化到不同的下游任务。

总的来说，ACT框架的核心创新在于将自监督学习和特征蒸馏方法应用于3D数据中，实现了知识传递和表示学习的改进，为跨模态学习和深度学习模型的发展提供了新的思路和方法。

摘要

深度学习的成功在很大程度上依赖于具有全面标签的大规模数据，在获取3D数据方面比2D图像或自然语言更昂贵且耗时。这促使我们有可能利用用于不同模态知识转移的以3D数据为基础的预训练模型作为教师。

本文以统一的知识蒸馏方式重新考虑了掩码建模，并且展示了基于2D图像或自然语言预训练的基础Transformer模型如何通过训练作为跨模态教师的自编码器（ACT）来帮助无监督学习的3D表示学习。

预训练的Transformer模型通过使用离散变分自编码的自监督来作为跨模态的3D教师进行转移，在此过程中，Transformer模型被冻结并进行提示调整，以实现更好的知识传承。
由3D教师编码的潜在特征被用作掩码点建模的目标，其中暗知识被提炼到作为基础几何理解的3D Transformer学生中。

预训练的ACT 3D学习者在各种下游基准测试中实现了最先进的泛化能力，例如在ScanObjectNN上的％整体准确率。

图1 ACT框架的概述。
（a）ACT利用在大规模数据上预训练的Transformer模型，例如使用2D图像预训练的ViT或使用语言预训练的BERT。
（b）ACT的第一阶段（第4.1节），预训练的Transformer模型通过带提示的自监督3D自编码进行微调。
（c）ACT的第二阶段（第4.2节），3D自编码器编码器被用作跨模态教师，将潜在特征编码为掩码点建模目标，用于3D Transformer学生的表示学习。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。