NÜWA：女娲算法，多模态预训练模型，大杀四方！

计算机视觉工坊 | 2021-12-15 14:22:23 阅读：573

论文地址：https://arxiv.org/abs/2111.12417

源代码：https:// github.com/microsoft/NUWA

一、前言

今天分享的论文，主要提出了一个统一的多模态预训练模型，称为NÜWA，可以为各种视觉合成任务生成新的或操纵现有的视觉数据（即图像和视频）。针对不同场景同时覆盖语言、图像和视频，设计了3D Transformer编码器-****框架，不仅可以将视频作为3D数据处理，还可以分别将文本和图像作为1D和2D数据进行适配。还提出了3D Nearby Attention(3DNA)机制来考虑视觉数据的性质并降低计算复杂度。在8个下游任务上评估NÜWA。与几个强大的基线相比，NÜWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外，它还显示了令人惊讶的良好的文本零样本能力——引导图像和视频处理任务。

8个任务的案例

二、背景

如今，网络变得比以往任何时候都更加视觉化，图像和视频已成为新的信息载体，并已被用于许多实际应用中。在此背景下，视觉合成正成为越来越受欢迎的研究课题，其目的是构建可以为各种视觉场景生成新的或操纵现有视觉数据（即图像和视频）的模型。

自回归模型【Auto-regressive models】在视觉合成任务中发挥着重要作用，因为与GAN相比，它们具有显式的密度建模和稳定的训练优势。早期的视觉自回归模型，如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer，都是以“pixel-by-pixel”的方式进行视觉合成的。然而，由于它们在高维视觉数据上的高计算成本，这些方法只能应用于低分辨率的图像或视频，并且难以扩展。

最近，随着VQ-VAE作为离散视觉标记化方法的出现，高效和大规模的预训练可以应用于图像的视觉合成任务（例如DALL-E和CogView) 和视频（例如GODIVA）。尽管取得了巨大的成功，但此类解决方案仍然存在局限性——它们分别处理图像和视频，并专注于生成它们中的任何一个。这限制了模型从图像和视频数据中受益。

三、NÜWA的表现

Text-To-Image(T2I)