Nat. Commun. | 通过多模态基础模型实现通用人工智能

编译 | 黄金朋审稿 | 郭梦月

本文介绍了Nanyi Fei, Zhiwu Lu等人发表在nature communications期刊上的文章《Towards artificial general intelligence via a multimodal foundation model》。

人工智能（AI）的根本目的是模仿人类的核心认知活动。尽管在人工智能研究中已经取得了巨大的成功，但现有的方法大多只具有单一的认知能力。为了克服这一限制，并向通用人工智能（AGI）迈出坚实的一步，作者开发了一个预先训练了大量多模态数据的基础模型，该模型可以快速适应各种下游认知任务。为了实现这一目标，作者提出利用从互联网上抓取的弱语义相关性数据，通过自监督学习来预先训练他们的基础模型，并表明可以在广泛的下游任务上获得有希望的结果。特别地，作者利用已开发的模型可解释性工具，证明了他们的基础模型具有很强的想象能力。作者相信他们的工作向AGI迈出了变革性的一步，从“弱或狭义人工智能”到“强或广义人工智能”。

介绍

人们普遍认为AGI具有的关键特征包括不限于：（1）在各种背景和环境中，对一大类认知任务（如感知、阅读理解和推理等）达到或超过人类的表现；（2）拥有处理与其创造者预期完全不同的问题的能力；（3）能够将所学习的知识从一个上下文概括/转移到其他上下文。

作者的动机基于两个方面：（1）基础模型通过对大规模的广泛数据进行预训练来适应各种下游认知任务，更重要的是，基础模型与《麻省理工科技评论》中提到的“2021年10项突破性技术”中的两项技术GPT-3和multi-skilled AI密切相关；（2）作者选择从庞大的多模态数据中学习是受到这样一个事实的启发，即大多数人类智能行为都是在使用视觉文本内容作为知识的主要载体和交流手段的多模态环境中表现出来的，如图1a所示。

现有的多模态基础模型大多数假设输入图像文本对具有强语义相关性，并且期望图像中的对象/区域与一段文本中的词之间的精确匹配（参见图1b），而遵循该假设的多模态数据是有限的（例如，通过多年的人类注释仅收集了数百万个图像对）。此外这类模型采用object detectors和 single-tower architecture在计算上非常昂贵，不适合在实际应用。

因此作者通过自我监督学习开发了一个大规模的多模态基础模型BriVL，从互联网上抓取6.5亿个弱语义相关性图像文本对作为预训练集，放弃了object detectors而采用two-tower architecture，满足实际应用的延迟要求。此外，作者还设计了跨模态对比学习（CL）算法，学习目标是保持与正样本接近而远离负样本。

BriVL与现存的两个最新模型OpenAI CLIP和Google ALIGN的主要区别有：（1）BriVL遵循弱语义相关性假设，收集的数据集中只过滤掉色情/敏感数据，更接近实际，而OpenAI CLIP仅保留具有高词频的图像-文本对，Google ALIGN通过一些规则过滤其预训练数据集；（2）BriVL采用动量机制来动态维护不同训练批次的负样本队列，同时使用相对较小的batch size以减少GPU内存占用，而OpenAI CLIP和Google ALIGN在每个训练批次中都使用负样本需要大的batch size。

结果

作者通过神经网络可视化、文本到图像的生成、遥感场景分类、新闻分类、阔模态检索和视觉问答等方面证明了BriVL具有出色的想象力。

预训练数据收集。作者构建了一个庞大的网络抓取的多源图文数据集，称为弱语义相关数据集（WSCD）。WSCD总共拥有约6.5亿个图像文本对，涵盖了体育、生活方式和电影海报等广泛的主题，只过滤掉了色情/敏感数据，不对原始数据进行任何形式的编辑/修改，保留自然的数据分布。由于WSCD基于中文，本节中所有实验的英文文本都被翻译成中文，供BriVL使用。

神经网络可视化。图2a展现了BriVL具有高层次概念的想象力，能够显示这些概念的具体体现，如“nature”：图像中有像草一样的植物；“time”：图像中一个时钟；等等，体现了使用弱语义相关性数据的多模态预训练的有效性。图2b展现了BriVL对于语句也有丰富的想象力，如“Every cloud has a silver lining”：图像中不仅从字面上体现了乌云背后的阳光，而且似乎表现了海上的危险情况（左边的船状物和波浪），表达了这句话的隐含意义。图2c表明BriVL能够将特定对象与更一般的视觉环境联系起来，如对于“mountains with forests”：图像中有较多的绿色面积；对于“mountains with stones”：图像中更多的是岩石。图2d展示了BriVL即使在相同的语义约束下，激活不同的神经元也会导致不同的想象结果，如分别激活LLP层的第108、456和678个神经元，所想象出的图像是不一样的。

文本到图像的生成。作者利用VQGAN在BriVL的指导下生成图像（如图3a）和与CLIP生成的图像（如图3b）对比，更好地解释神经网络可视化，虽然两者都能很好的理解文本并给出想象出的图像，但是仍然有如下两点主要区别：（1）CLIP生成的图像中往往会出现卡通风格的元素，而我们的BRIVL生成的图像更加真实自然，可能是由于CLIP和BRIVL使用的训练数据的差异；（2）CLIP倾向于简单地将元素放在一起，而BRIVL生成的图像在全局上更加连贯，这是由于CLIP使用具有强语义相关性的图像文本对，而BriVL使用弱相关性数据，因而更倾向于将给定文本作为一个整体来理解每个图像。图3c展示了BriVL根据多个连贯语句生成一系列图像，尽管4张图片是独立生成的，但在视觉上它们是连贯的，具有相同的风格，这表明BriVL具有的一个优点是尽管图像中的环境和背景很难在相关文本中明确提及，但在大规模多模态预训练中，它们并没有被忽略。

图3d展示了BriVL对人类很少看到的概念/场景（例如，“炽热的大海”和“发光的森林”）的想象结果，表明BriVL具有很强的泛化/想象能力，侧面证明了BriVL的优越性能不是由于过拟合预训练数据的证据，因为这里的文本输入对应于甚至在现实生活中不存在的概念/场景。此外，这些生成示例再次证明了预训练BRIVL在弱语义相关性数据上的优势。

遥感场景分类。为了展示预先训练的BriVL的跨领域知识转移能力和领域外想象能力，我们在两个遥感场景分类基准上进行了zero-shot实验。一个是UC Merced Land-Use（UCM）数据集，它有21个类，每个类有100个图像，每个图像的大小为256×256；另一个是AID数据集，总共有30个类和10000个图像，每个图像的大小为600×600。图4a和图4b分别展示了BriVL和CLIP在UCM和AID上的zero-shot分类结果，可以看出BriVL其具有很强的跨领域知识转移能力，BriVL在两个数据集上实现了相似的性能，并且BRIVL和CLIP之间的差距在AID上比在UCM上更大。这意味着BRIVL具有更强的泛化能力，可以应对更复杂的情况。此外图4c展示了一个“Baseball Field”实例与BriVL想象出的图像，由于在WSCD预训练数据集中有关“Baseball Field”的图片都是以正常相机视角拍摄的，且WSCD中几乎没有任何遥感数据，这一发现表明BriVL在某种程度上学会了在预训练期间将视角转换推广到看不见的领域，甚至具备常识推理能力。

新闻分类。为了证明BriVL这种大规模多模态学习如何有益于单模态技能并提高对单模态任务的想象力，作者在两个中文新闻分类数据集上进行了zero-shot实验。第一个数据集是今日头条新闻，它有15个类，总共约有380K个样本；第二个数据集是THUCNews，它有14个类，总共有大约840K个样本。作者选择将BriVL与Roberta-Base及其变种进行对比，结果如图5a所示。图5b展示了BriVL W/Roberta-Large与Roberta-Large在头条新闻的每个类别上的性能增益/损失。可以观察到，BriVL的表现只在5个类别上有所下降，但在其他10个类别上有所上升，这验证了单模态想象/联想能力可以通过多模态学习得到提高。此外，图5c展示了这几个模型检索“sports”和“automobile”的结果，对于“sports”， BriVL将它与比Roberta-Large更多样化的短语联系起来。然而，对于“automobile”，BRIVL检索到的前30个短语比较单调。

跨模态检索。图6a展示了BriVL及其变种模型（微调策略的不同）的在AIC-ICC数据集上的检索效果，可以看出，图像到文本的检索结果通常高于文本到图像的检索结果，与人类一致；3种变体都比直接训练的BriVL效果好，说明不同的微调策略会影响最终结果，在为不同的下游任务微调预训练模型时要记住这一点。

视觉问答（VQA）。作者考虑通过VQA进一步验证预先训练的BriVL在Visual7W数据集上的强大想象能力。Visual7W拥有来自MSCOCO的47.3K图像49每个图像都有一个问题和四个候选答案，其中只有一个是正确答案。作者仍然采用在跨模态检索中的BriVL及其3个变种模型进行测试对比，总体结果如图6b所示，此时最佳结果并没有集中在其中一个模型，这说明不同的任务需要不同的微调策略。此外图6c展示了4个VQA示例，可以看出预先训练的BriVL清楚地表现出强大的想象能力，甚至是常识的暗示，比如它知道图片中的火车看起来模糊是因为它在快速移动，马的照片是在田野而不是在动物园拍摄的。

方法

体系结构概述。BriVL可以归类为two-tower模型，因为使用单独的图像和文本编码器，但实际上还采用了两个额外的动量编码器来帮助预训练过程。

从结构上BriVL由图像编码器、文本编码器构成。其中在图像编码器中使用了一个名为Multi-Scale Patch Pooling (MSPP)的模块来解决以往在图像-文本检索任务中使用重型检测器提取区域/对象特征的计算成本很高的问题。

更多方法和实现细节可以从原文获取。

总结

作者开发了一个名为BriVL的大规模多模态基础模型，该模型在由6.5亿个图像文本对组成的弱语义关联数据集（WSCD）上进行了有效的训练。通过神经网络可视化和文本到图像生成确定了对齐的图像文本嵌入空间的直接证据。然后，还直观地揭示了多模态基础模型是如何理解语言的，以及它是如何对单词和句子进行想象或联想的。此外，在其他下游任务上的大量实验显示了BriVL的跨域学习/迁移能力以及多模态学习相对于单模态学习的优势。特别是，BriVL似乎获得了想象和推理的能力。最后，作者认为所有这些优势主要是由于BriVL所遵循的弱语义相关性假设，也就是说，BriVL通过弱语义数据有效地融合人类复杂的情感和思想，向AGI迈出的坚实一步。

参考资料

Fei, N., Lu, Z., Gao, Y. et al. Towards artificial general intelligence via a multimodal foundation model. Nat Commun 13, 3094 (2022).

https://doi.org/10.1038/s41467-022-30761-2

代码

https://github.com/neilfei/brivl-nmi

监督学习神经网络深度学习人工智能

0 人点赞