智力衡量一个人仅使用几条简单指令就能多快适应新环境。尽管两者之间存在对比,但孩子们可能会在看到书中动物的几张照片后认出动物园里真正的动物。另一方面,典型的视觉模型还不能反映这种人类智力水平。需要接受数以万计已为该任务明确注释的示例的训练。如果目标是对图像中的动物进行计数和识别,例如“三只斑马”,则必须收集数千张照片,并用它们的数量和物种注释每张图像。每次面对新工作时都需要训练新模型是最主要的缺点,这使得该过程效率低下、成本高昂。
在其最近的论文中,谷歌的 Deepmind 提出了一系列名为 Flamingo 的机器学习模型,以通过较少的密集训练获得更好的结果来应对这一挑战。Flamingo 是一种单一的视觉语言模型 (VLM),它在广泛的开放式多模式任务的小样本学习中设置了新的最先进技术。Flamingo 只需使用几个特定于任务的示例就可以解决几个复杂的问题,而无需额外的训练。Flamingo 将由交错图像、视频和文本组成的多模式数据提示作为输入,并使用其简单的界面提供带有附属语言的纯文本输出。换句话说,Flamingo 可以通过返回输入的解释文本来执行推理任务,在训练期间只给出几个样本。它优于所有以前的小样本学习算法,
Flamingo 在实践中将预先训练的语言模型与强大的视觉表示和独特的架构组件相结合。Deepmind 使用 Chinchilla(其最近发布的 700 亿参数语言模型)训练 Flamingo,无需任何额外的任务特定微调。经过这次训练,该模型可以直接应用于视觉任务。4330 万个项目的训练数据集完全来自互联网,由互补的未标记多模式数据组成。
该模型的定性能力通过为照片添加性别和肤色的字幕进行测试,然后通过 Google 的 Perspective API 运行字幕以评估文本毒性。虽然初步调查结果令人鼓舞,但该团队认为,在部署以解决 AI 偏见之前,需要进行更多研究以评估多模式系统中的道德风险。当每个挑战只给出少量实例时,Flamingo 的性能优于所有以前的小样本学习算法。该模型在少样本训练方面也面临某些限制,主要是当训练数据集如此小时,变量太多而无法解释时。
Flamingo 不仅仅适用于未标记的数据;它还可以总体上改善机器学习的状况,以应对训练新模型所需的能源和处理成本不断上升的问题。Deepmind 得出的结论是,该模型“在计算上的训练成本很高”,尽管它没有明确提及训练它所需的能源成本。另一方面,据该团队称,Flamingo 可以快速适应资源匮乏的环境和活动,例如分析 PII 数据、社会偏见、刻板印象和其他变量。即使 Flamingo 还没有为黄金时段做好准备,像这样的模型在实际改善社会方面也有很大的潜力。正在进行持续研究以提高它们的灵活性和能力,以便所有人都能安全地部署它们。
论文:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
参考:
https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model
https://www.theregister.com/2022/04/29/flamingo_deepmind_ai/