原文:
huggingface.co/docs/transformers
BLIP-2
原文链接:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/blip-2
概述
BLIP-2 模型由 Junnan Li、Dongxu Li、Silvio Savarese、Steven Hoi 在BLIP-2: Bootsrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models中提出。BLIP-2 利用冻结的预训练图像编码器和大型语言模型(LLMs),通过在它们之间训练一个轻量级的 12 层 Transformer 编码器,实现了各种视觉-语言任务的最先进性能。值得注意的是,BLIP-2 在零样本 VQAv2 上比Flamingo(一个 80 亿参数模型)提高了 8.7%,并且可训练参数数量减少了 54 倍。
论文摘要如下:
由于大规模模型的端到端训练,视觉-语言预训练的成本变得越来越高。本文提出了 BLIP-2,一种通用且高效的预训练策略,从现成的冻结预训练图像编码器和冻结大型语言模型中引导视觉-语言预训练。BLIP-2 通过轻量级的 Querying Transformer 消除了模态差异,该模型经过两个阶段的预训练。第一阶段从冻结图像编码器引导视觉-语言表示学习。第二阶段从冻结语言模型引导视觉-语言生成学习。尽管可训练参数数量明显少于现有方法,但 BLIP-2 在各种视觉-语言任务上实现了最先进的性能。例如,我们的模型在零样本 VQAv2 上比 Flamingo80B 提高了 8.7%,并且可训练参数数量减少了 54 倍。我们还展示了模型的新兴能力,即零样本图像到文本生成,可以遵循自然语言指令。
BLIP-2 架构。摘自原始论文。
此模型由nielsr贡献。原始代码可在此处找到。
使用提示
- BLIP-2 可用于在给定图像和可选文本提示的情况下进行条件文本生成。在推理时,建议使用
generate
方法。 - 可以使用 Blip2Processor 来为模型准备图像,并将预测的标记 ID 解码回文本。
资源
官方 Hugging Face 和社区(由