字节提出 LLaVA-OneVision ：首个突破多模态模型性能瓶颈的开源大型模型！

作者提出了LLaVA-OneVision，这是一系列由LLaVA-NeXT博客系列中的 insights 整合的开源大型多模态模型（LMMs）。作者的实验结果表明，LLaVA-OneVision 是第一个能够同时突破开放 LMMs 三个重要计算机视觉场景（单张图像、多图像和视频场景）性能瓶颈的单模型。值得注意的是，LLaVA-OneVision 的设计允许在不同的模态/场景之间进行强大的迁移学习，从而产生新的新兴能力。尤其是，通过从图像到视频的任务迁移，展示了强大的视频理解和跨场景能力。 https://llava-vl.github.io/blog/llava-onevision

1 Introduction

人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型，致力于推进构建具有大规模视觉语言助手的（LLaVA）[83]研究，该助手可以适应各种指令，在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法，它通常通过连接视觉编码器与大规模语言模型（LLM）来实现。

第一个LLaVA模型[83]展示了令人印象深刻的多模态聊天能力，有时在首次看到从未见过的图像和指导的情况下，展现出与GPT-4V相似的行为。LLaVA-1.5[81]通过整合更多的学术相关指令数据，显著扩展并提高了能力，以一种数据高效的方法在数十个基准测试上达到最优性能。LLaVA-NeXT[82]继承了这一特性，通过以下三个关键技术进一步推动性能边界：AnyRes用于处理高分辨率图像，扩展高质量指令数据，并利用当时可用的最佳开放LLM。

LLaVA-NeXT提供了一个可扩展和可伸缩的原型，有利于进行多次并行探索，这些探索已在LLaVA-NeXT博客系列[82,168,65,64,68]中报告：

https://llava-vl.github.io/blog/

*《视频博客》[168]表明，仅经过图像训练的LLaVA-NeXT模型在具有零次模态转化的视频任务上表现出了惊人的强有力，这是由于AnyRes的设计使它将任何视觉信号消耗为图像序列。*《更强博客》[65]演示了这种成本效益策略的成功实现。只需简单地放大LLM，它就在一些基准测试上取得了可比GPT-4V的性能。

*《消融博客》[64]总结了除了视觉指令数据本身之外，作者的实证探索，包括在追求数据扩展成功时选择架构（LLM和视觉编码器的伸缩）、视觉表示（分辨率和#tokens）、以及训练策略（可训练模块和高质量数据）等。*《交织博客》[68]描述了在新场景中扩展和改进能力的策略，包括多图像、多帧（视频）和多视角（3D），同时保持单图像性能。

这些探索在一个固定的计算预算内进行，旨在在项目进程中提供一些有用的启示，而不是推动性能极限。在这个过程中，作者还在1月至6月期间积累并整理了大量高质量的训练数据。通过将这些见解合并并在新积累的更大数据集上执行实验，作者引入了LLaVA-OneVision。作者使用现有的计算能力实现新模型，但并未对单个组件进行过度风险降低。这为作者通过增加数据和模型伸缩继续改进能力留下了空间，请参见A部分中的详细开发时间表。特别地，作者的论文做出了以下贡献：

大规模多模态模型。作者开发了LLaVA-OneVision，这是一个家族式的开放大规模多模态模型（LMMs），在包括单图像、多图像和视频在内的三个重要视觉设置中提高了开放LMMs的性能边界。
任务迁移的新兴能力。作者的建模和数据表示设计允许跨不同场景进行任务迁移，这提供了一种简单的方法来产生新的新兴能力。特别是，LLaVA-OneVision通过任务迁移在图像上展示了强大的视频理解能力。
开源。为了向作者构建通用视觉助手的方向迈进，作者将以下资产公开给公众：生成的多模态指令数据，代码库，模型预训练权重，以及一个视觉聊天示例。

2 Related Work

前沿的自适应语言模型（Language Models，LMs）如GPT-4V [109]，GPT-4o [110]，Gemini [131]和 Claude-3.5 [3]，在各种视觉场景中展现出杰出的性能，包括单张图像、多张图像和视频设置。在开放研究领域，现有的研究通常为每个单一场景单独开发模型。具体而言，大多数研究集中在单张图像场景下的性能极限，只有少数较新的论文开始探索多张图像场景 [70, 47]。虽然视频LMs在视频理解方面表现出色，但其代价往往是图像性能 [72, 76]。要找到一个同时在大规模图像数据上都表现出优越性能的单套开源模型是罕见的。LLaVA-OneVision致力于展示状态最前的性能，同时展现了通过跨场景任务迁移和组成展现有趣的新兴特性的能力。

据作者所知，LLaVA-NeXT-Interleave [68]是首个报告在三个场景上都取得良好表现的模型，LLaVA-OneVision继承了其训练配方和数据以提高性能。具有可能卓越表现的其他多功能的开放性LMs包括VILA [77]，IntentLM-XComposer-2.5 [161]。然而，它们的结果并未得到彻底评估和报告；作者将在实验中与它们进行比较。除了构建具有多种能力系统的优势之外，LLaVA-OneVision还从大规模高质量的训练数据中受益，包括模型合成的知识和新的多样性指令调优数据的集合。对于前者，作者继承了[64]中的所有知识学习数据。对于后者，作者的动机源于FLAN [136, 88, 144]。数据收集过程与Idefics2 [63]和Cambrian-1 [133]同时进行，但作者关注的是一小部分更精心挑选的数据集。观察到的相似结论是：大量的视觉指令调优数据可以显著提高性能。关于LMs设计选择的全面调查，作者可以参考一些最近的研究。

3 Modeling

Network Architecture

该模型的架构继承了LLaVA系列的最小主义设计，其主要目标有两种：(i)有效利用LLM和视觉模型的预训练能力，以及(ii)在数据和模型方面实现强大的可扩展性。网络架构如图1所示。

LLM（语言模型）。作者选择Qwen-2 [147]作为作者的LLM 的参数化模型，因为它提供了各种模型大小并表现出目前公开的预训练权重中强大的语言能力。
视觉编码器。作者考虑SigLIP [157]作为视觉编码器的参数化模型，将输入图像编码为视觉特征。在作者的实验中，考虑了最后Transformer层之前的和之后的网格特征。
投影器。作者考虑一个2层的MLP [81]的参数化模型，将图像特征映射到语言嵌入空间，得到一系列视觉标记（token）。

模型选择的依据是作者的实验观察，即更强大的LLM通常在外部环境中有更强大的多模态能力，而SigLIP在开放的视觉编码器中具有更高 Level 的LMM性能。

提出的Higher AnyRes策略可以作为灵活的视觉表示框架，适用于多图像和视频表示。性能和成本的最优配置可以相应地进行调整。作者在图3中描绘了配置，第C.1节详细描述。并提供以下高级编码策略：

单张图片. 作者考虑使用较大的最大空间配置（a，b）为单张图片表示，以保持原始图像分辨率，无需缩放。另外，作者还故意为每张图像分配大量视觉标记符，因此在视觉信号的有效表示下，会生成更长的序列。这是基于观察到图像与视频之间具有大量有质量训练样本和多样化指令的比例较大。通过使用模拟视频表示的图像长时间序列，作者可以促进图像向视频理解之间的平滑能力转移[168; 64]。
多图像. 只考虑基本图像的分辨率，并将其输入到视觉编码器中，以获得特征图，从而省去了对高分辨率图像的多块裁剪，从而节省计算资源[68]。
视频. 视频中的每一帧都被缩放到基本图像的分辨率，并通过视觉编码器处理以生成特征图。双线性插值用于减少标记符数，通过减少每个帧的标记符数，允许考虑更多的帧。经验证据表明，这为性能和计算成本之间的更好权衡[168]。

这些表示配置是为了在固定计算预算的实验中实现能力转移。随着计算资源的增加，可以在训练和推理阶段分别增加每张图像或帧的标记符数，以提高性能。

4 Data

在多模态训练的领域，一种普遍的观念是“质量而非数量”。这一原则之所以重要，是因为预训练的LLM（语言模型）和视觉 Transformer （ViTs）里存储了大量的知识。虽然至关重要的是在LMM（语言模型）的训练周期结束时积累平衡、多样且高质量的教学数据，但往往容易被忽视的一个重要方面是模型在任何时候都可以接触到新的、高质量的数据，从而进一步获取知识。在本节中，作者将讨论高质量知识学习和视觉指示调优的数据来源和策略。

High-Quality Knowledge

大型公共图像文本数据通常质量较低，使得多模态预训练的数据扩展效率降低。因此，建议在计算预算有限的情况下，关注高质量知识学习。这种方法认识到预训练的LLMs和ViTs已经具有大量的知识基，目标是通过精心筛选的数据来完善和增强这个知识库。注重数据质量能最大化计算效率。

作者考虑从三个主要类别中获取高质量知识学习的数据：

再描述详细描述数据。LLaVA-NeXT-34B [82] 因其在开源LMMs中强大的详细描述能力而闻名。作者使用该模型为以下数据集生成新的描述：COCO118K，BLIP558K和CC3M，总计3.5M样本。这可以看作是AI自改进的简单尝试，其中训练数据由模型早期版本自行生成。
文档/OCR数据。作者使用了来自UREader数据集的文本阅读子集，总共100K样本，可以通过PDF渲染轻松获取。作者用这个文本阅读数据与SynDOG EN/CN组合，形成文档/OCR数据，总共1.1M样本。
中文和语言数据。作者使用原始ShareGPT4V [20]图像，并利用Azure API提供的GPT-4V生成92K详细的中文描述数据，以提高模型在中文能力。由于作者使用了大量的详细描述数据，作者还旨在平衡模型的语言理解能力。作者从Evo-Instruct数据集 [16]中收集143K样本。

值得注意的是，几乎所有高质量知识数据都是合成的（占99.8%）。这是由于收集大规模、高质量野外数据的高成本和版权限制。相比之下，合成数据可以轻松扩展。作者认为，随着AI模型不断增强，从大规模合成数据学习已经成为趋势。

Visual Instruction Tuning Data

视觉指令调优[83]是指LMM理解并执行视觉指令的能力。这些指令可以以语言的形式出现，与视觉媒体如图像和视频结合，LMM会处理并遵循执行任务或提供响应。这涉及将视觉理解与自然语言处理相结合，解读指令并执行所需响应。

数据收集和整理。如前所述[81,133,63]，视觉指令调优数据对LMM能力至关重要。因此，保持高质量的数据集收集至关重要并有益于社区。作者从各种原始来源开始收集大量指令调优数据集，各类别数据的不平衡数据比例。此外，作者还从Cauldron[63]和Cambrian[133]数据集分类中利用了一些新的子集。

作者根据三层次级分类对数据进行分类：视觉、指令和回答。

视觉输入。考虑三种视觉场景：单图像、多图像和视频，视作为多模态序列中的视觉输入。
语言指令。这些指令常常以问题形式出现，定义处理视觉输入要执行的任务。作者将数据分类为五大主要类别：_通用问答（General QA）、《通用光学字符识别（General OCR）》、《文档/图表/屏幕（Doc/Chart/Screen）》、《数学推理（Math Reasoning）_和_语言（Language）。这些指令定义了训练好的LMM可能覆盖的技能集。作者使用任务分类来帮助维护和保持技能分布的平衡。
语言回答。答案不仅回答用户请求，还指定模型行为。它可以广泛归类为自由形式和固定形式。

自由格式数据通常由像GPT-4V/o和Gemini这样的高级模型标注，固定格式数据来源于学术数据集，如VQAv2、GQA、Visual Genome。对于自由格式数据，作者保留原始答案。但是对于固定格式数据，作者手动审查内容并对问题和答案格式进行必要的更正。作者遵守LLaVA-1.5提示策略，例如多项选择数据、简答题数据和特定任务数据（如光学字符识别）。这一步对于指导模型行为以正确平衡QA性能、会话能力和推理技能在更复杂的任务中是至关重要的，同时也能防止不同数据源之间的潜在冲突。作者在收集到的每个数据集的详细信息、分类和格式提示中，附录E列表。

作者将指令数据划分为两个单独的组：一个用于单图像场景，另一个用于所有视觉场景。这一划分基于作者从早期研究中得出的洞察，即图像和视频模型之间的关系：更强的图像模型可以更好地转移到多图像和视频任务。此外，与视频和多图像任务相比，单图像数据的训练数据集数量和质量显著更高。

单图像数据。 由于单图像数据对多模态能力至关重要，作者明确地收集了一个大型单图像数据集供模型学习。作者从收集到的数据来源中挑选构建了一个平衡的集合，结果总共包含了320万样本。单图像数据的总分布如图4所示，数据收集和分步呈现路线图详细信息和附录E.1。

OneVision数据。 除了单图像阶段的训练，作者还进一步使用视频、图像和多图像数据混合微调模型。作者引入了一共160万混合数据样本，其中560万多图像数据来自[68]，此项目收集的350万视频数据，以及800万单图像样本。值得注意的是，在这个阶段，作者没有引入新的单图像数据，而是从之前的单图像数据中采样高质量和平衡部分，如 [68]中所述。数据分布和附加详细信息见附录E.2。

5 Training Strategies

为了使LLM实现多模态功能，作者识别出三个关键功能，并将它们系统性地划分为三个不同的学习阶段进行消融研究。与大多数现有研究一样，先前的LLaVA模型主要探索单图像指令调优。然而，其他部分较少受到关注，因此这将成为本节的主要焦点。

作者通过课程学习原则进行模型训练，其中训练目标和难度不断增加的示例按阶段观察。在固定计算预算的情况下，这种策略有助于将训练过程分解为阶段，并产生可以用于更多实验试错的即时预训练权重。

_第一阶段：语言-图像对齐_：目标是将视觉特征充分对齐到LLM的词向量空间。
_第一阶段半：高质量知识学习_：在计算效率和向LLM注入新知识之间取得平衡，作者建议考虑高质量知识进行LLM学习。训练配置与第二阶段使用的方法保持一致，以确保一致性，并使模型能够无缝地集成新信息。* _第二阶段：视觉指令调优_：为使LMM解决一组多样化视觉任务，作者按不同的组将指导数据组织起来，这些组在第四节2.2中描述。模型按顺序在每个组上进行训练。

具体而言，视觉指令调优过程可分为两个阶段：_单张图像训练_：模型首先在320万张单张图像指令上进行训练，从而在单图像场景下具有较强的性能，根据多样化指令完成视觉任务。_一视觉训练_：模型然后在一组视频、单张图像和多图像数据的混合上进行训练。在这个阶段，模型扩展了从单图像场景到多样化场景的能力。它学会了在每个新场景中根据指令完成任务，并跨场景传播学习到的知识，从而产生新的涌现能力。注意，在后期训练阶段 Proposal 的OneVision训练可能是使LLM实现多图像和视频理解能力的最简单和最经济的方法。

训练策略总结在表1中给出。作者逐渐训练模型处理长序列训练。在训练过程中，最大图像分辨率和视觉token的数量会逐渐增加。在第一阶段，基本图像表示为具有729 token的图像。在第二阶段和第三阶段，使用AnyRes，分别具有最多5倍和10倍的视觉token，相应地。关于可训练模块，第一阶段只更新投影器，而其余阶段更新整个模型。值得注意的是，视觉编码器的学习率是LLM的5倍小。

6 Experimental Results

作者使用LMMs-Eval [160]对全基准上的LLaVA-OneVision模型进行标准化和可复现的评价。为了与领先的LMMs进行公平的比较，作者主要报告原始论文中的结果。当没有可用的结果时，作者在LMMs-Eval中加载模型，并使用一致的设置进行评估。除特别说明外，作者所有结果均采用贪心解码和0-shot设置报告。

为了展示所设计范式的普遍性和有效性，作者在表2中对不同模态（包括单图像、多图像和视频基准）的LLaVA-OneVision模型进行全面评价。表3、表4和表5分别展示了每个模态的详细结果。作者用_LLaVA-OV (SI)_或_LLaVA-OV_表示在单图像阶段和OneVision阶段训练后的模型预训练权重。提供三种模型大小（0.5B、7B和72B），以适应具有不同性能-吞吐量交易的端设备到云服务的应用。GPT-4V和GPT-4o的结果作为参考。作者最大的模型LLaVA-OneVision-72B在大多数基准上优于GPT-4V和GPT-4o。这表明 proposed recipe 有效，为进一步缩放提供了有前景的路径。然而，在复杂的任务如视觉对话场景中，仍然存在相对较大的差距，作者留作未来在更强大的LLM、更大的训练数据和更好的偏好学习方面的研究。

Single-Image Benchmarks

为了在实际场景中验证单图像任务的表现，作者考虑了表格3中一系列全面的图像基准。它分为三个类别：

(1) 图表、图片和文档理解。作为结构化OCR数据的视觉主要格式，作者在AI2D[54]，ChartQA[101]，DocVQA[103]和InfVQA[102]基准测试上评估结果。尽管当前的开源模型如InternVL[22]和Cambrian[133]与商业模型性能相当，但LaVAVeOneVision超越了GPT-4V[109]，并逐渐接近GPT-4o[110]的性能水平。

(2) 感知和多学科推理。包括视觉感知场景，作者揭示了模型在更复杂和具有挑战性的推理任务中的潜力。具体而言，作者采用包括MME[150]，MMBench[86]，和MMVet[153]在内的感知基准测试，以及包括MathVerse[164]，MathVista[90]和MMMU[156]在内的推理基准测试。LLAVA-OneVision在各个基准测试上的结果显著超过了GPT-4V，并在MathVista上与GPT-4o相当。这进一步证实了作者在视觉感知和推理任务中的优势。

(3) 真实世界理解和视觉问答。作者将LLMs在野外的一般助手评估作为最重要的指标，超越了实验室环境。为了在实际场景中验证模型的能力，作者使用了几个广泛采用的基准测试，包括RealworldQA[140]，Vibe-Eval[111]，MM-LiveBench[160]和LLAVA-Bench-Wilder[65]。虽然作者的模型与GPT-4V和GPT-4o相比还有改进的空间，但与类似的参数大小的开源模型相比，它达到了竞争性能。值得注意的是，作者的模型在MM-LiveBench[160]上表现良好，这是一个关于实际互联网内容的实时基准，展示了模型的广泛世界知识和强大的泛化能力。

Multi-Image Benchmarks

作者进一步在多图像交错设置下评估LLaVA-OneVision，在这种设置下，用户可能在多个图像之间提问。特别是，作者对LLaVA-Interleave Bench [68]的多样化子任务进行全面评估，例如差异检查（Spot the Difference [45]）、图像编辑指令（Image Edit Instruction (IEI) [68]）、视觉讲故事（Visual Storytelling (VST) [40]）、文本丰富的视觉问答（Text-rich VQA (TR-VQA) [85]）、多图像视觉问答（Multi-image VQA (MI-VQA) [117]）、Raven Puzzle [24]、Q-Bench (QB) [138] 和 NLVR2 [125]。作者还利用了几个多视图基准来评估，它们呈现了具有多个视点的3D环境，包括3D聊天（3D-Chat）和任务分解（Task Decomposition (3D-TD)）来自3D-LLM [38]，扫描QA（ScanQA [5]），ALFRED [122]，以及nuScenes VQA [9]。作者将这些数据集称为领域内评估，因为作者包含它们的训练数据的一部分。

此外，作者在不同的领域外任务上进行了评估，这揭示了作者的方法的一般化能力。它们包括数学QA基准MathVerse [164]和科学QA基准SciVerse [34]的多图像分割，多图像感知基准BLINK [31]，MMMU-(多图像) [156]中包含所有多图像QA的MMMU，以及涵盖了12种多样化多图像任务的MuirBench [135]。

如表4所示，LLaVA-OneVision（SI）在所有基准上都显著优于现有的多图像LMMs。在进行了多图像和视频数据的进一步调整后，LLaVA-OneVision在某些方面显示出了明显的改进，与GPT-4V相比，其在特定领域的优势明显。这突显了它在复杂任务，如多图像推理、识别差异和理解3D环境方面的强大性能。此外，作者观察到在单一视图训练阶段后的性能持续提升，这在缺乏单一图像数据的视图基准上更为明显。这证明了作者的单一视图范式对于赋予LMMs全面视觉能力的重要性。

Video Benchmarks

视频也是构建世界模型的一种常见途径，它捕捉了现实世界随时间动态变化的动态性质。作者在几个开源和多选题视频基准测试上进行了实验。这些包括包含来自ActivityNet数据集的动作相关问答配对的活动网络量子问答（ActivityNet-QA），专注于长视频理解的EgoSchema，MLVU，以及VideoMME [29]和NeXTQA [141]等。

如表5所示，LaVa-OneVision在比以前的大型语言模型大得多的LLM上的效果相当或更好。LaVa-OneVision的优势在复杂的基准测试（如EgoSchema和VideoMME）中尤为明显。即使与先进的商业模型GPT-4V相比，也在ActivityNet-QA，MLVU和VideoMME基准测试上具有竞争力。在LaVa-OV的划分中，在PerceptionTest中性能差异最小，将LLM从0.5B缩放为7B时，最小提高了0.5个百分点。这与其他数据集至少提高了5个百分点。在PerceptionTest上的微弱收益表明，LaVa-OV的感知能力可能主要依赖于其视觉模块，支持了最近如乔等的研究者（Qiao et al）的发现，他们分别了图像编码器和LLM在感知和推理任务中的作用。值得注意的是，对于需要大量推理的数据集（如EgoSchema），更大的LLM极大地提升了性能。

作者将公开了作者所使用的所有公共数据集。这些图像和数据已经公开用于学术研究；作者将它们包含在内并将其格式转换为用于作者的研究。然而，作者的一部分数据来源与用户数据以及使用Azure OpenAI服务获取的数据，由于公司政策，无法直接发布。作者将提供用于最终可重用性脚本的 exact data YAML 文件，并提供使用完全公开数据的可重用实验脚本、训练日志和最终版本预训练权重。

参考

[1].LLaVA-OneVision: Easy Visual Task Transfer.

模型视频数据性能开源

0 人点赞

字节提出 LLaVA-OneVision ：首个突破多模态模型性能瓶颈的开源大型模型 ！