长语义能力对于多模态基础模型至关重要,尤其是在长视频理解方面。作者引入了LongVILA,这是一个由算法和系统共同设计的全栈式长语义视觉语言模型解决方案。在模型训练方面,作者通过采用两个额外的阶段,即长语义扩展和长有监督微调,将现有的VLMs升级为支持长视频理解。然而,在长视频训练上,计算和内存需求较高。 作者引入了长语义多模态序列并行系统(MM-SP),它可以有效地并行训练和推理长视频,使256 GPU上可训练的上下文长度达到2M,无需任何梯度预训练权重。LongVILA有效地将VILA的视频帧数从8扩展到1024,从2.00提高到3.26(满分5分),在1400帧(274k上下文长度)的视频中实现了99.5%的准确率,这在长视频领域的针刺麦田搜索任务中具有重要意义。LongVILA-8B在VideoMME基准测试中,随着帧数增加,在长视频上的准确率呈现出一致的提高。 此外,MM-SP比环序并行快2.1倍到5.7倍,比Megatron(使用上下文并行 张量并行)快1.1倍到1.4倍。此外,它无缝集成到Hugging Face Transformers中。
1 Introduction
将多个模态理解的集成与长序列能力的集成非常重要。支持更多模态的基础模型可以接受更灵活的输入信号,使人们可以以更多样化的方式与模型进行交互,例如类似 GPT-40 式的多模态聊天机器人,多模态网页代理(Koh 等人,2024年)和现实世界机器人基础模型(Brohan 等人,2022年、2023年;Padalkar 等人,2023年)。更长的上下文允许模型处理更多信息,例如更长的文档,仓库 Level 的代码库和小时的视频,这同样提供了现实世界应用所要求的功能。
然而,虽然一些工作实现了长期的视觉语言模型(VLMs)(Lin 等人,2023年;Weng 等人,2024年),但他们使用的是简化的方法,而不是提供一个全面的解决方案。例如,LongVA (Zhang 等人,2024a)依赖于长期的 LLMs 并训练简短上下文的数据。LongVLM (Weng 等人,2024)使用 Token Compression 来绕过上下文的扩展。这些方法回避了更困难的问题,如开发一个健壮的长上下文多模态训练框架并相应的设计数据集。
对于长期的视觉语言模型,全栈设计至关重要。训练大型模型通常是一个复杂而系统的工程,需要数据工程(Betker 等人,2023年;Ouyang 等人,2022年;Zhou 等人,2024年)和系统软件协同设计(Lepikhin 等人,2020 年;Chowdhery 等人,2023年;Shoeybi 等人,2019年;Brown 等人,2020年;Dehghani 等人,2023年)。
就像只有文本的 LLM 一样,VLMs(例如 LLaVA (Liu 等人,2023b))通常需要不同的模型架构和灵活的分布式训练策略。此外,长期建模不仅需要充分利用建模的长上下文数据,还需要能够支持记忆密集型上下文训练的基础设施(Li 等人,2021年;Jacobs 等人,2023年;Li 等人,2023a 年)。因此,全栈设计,涵盖了训练 Pipeline 和系统,对于长期 VLMs 是不可或缺的。
在本文中,作者引进了LongVILA,是实现长期 VLMs 综合解决方案。对于训练 Pipeline ,作者实现了五个阶段的训练课程,如图1所示:(1) 多模态对齐,(2) 大规模预训练,(3) 短监督微调,(4) 扩展LLM的上下文,(5) 长期监督微调。对于训练系统,作者建立了一个高效且用户友好的框架,即多模态序列并行(MM-SP),该框架支持训练内存密集型长期 VLMs。推理方面,MM-SP 通过在作者的 MM-SP 框架中部署推理模式,解决了长上下文多模态语言部署的挑战,通过有效地增加 LongVILA 中视频帧的数量,VideoMME(Fu 等人,2024a)和长视频字幕任务的性能一直提高(图2)。在 1024 帧上训练的作者的 LongVILA 模型,在针锋相对的实验中实现了 99.5% 的准确率,在 1400 帧时的上下文长度,相当于 274k 个标记。作者的 MM-SP 系统可以在不需要梯度预训练权重的情况下,有效地将上下文长度扩展到 200 万个标记,比环序列并行快 2.1 倍至 5.7 倍,比 Megatron 并行流水线 张量并行快 1.1 倍至 1.4 倍。
2 Background and Related Work
视觉语言模型架构。VLMs有两种主要的架构设计:编码器-解码器架构(如,LLA (Liu等,2023b),PaLM-E (Driess等,2023))和仅解码器架构(如,Fuyu (Bavishi等,2023),Chameleon (团队,2024))。编码器-解码器VLMs通过多模态投影器将视觉编码器连接到LLM解码器。某些多模态投影器(如空间池化和Q-former)可以显著减少每个图像或视频帧中的标记数量,从而降低LLM解码器的计算负担。相反,仅解码器架构的LLM通常以非层次化标记池为输入处理原始 patch,这使得每个图像或帧的标记数量减少更加具有挑战性。在本工作中,作者基于VILA (Lin等,2023b)作为基础。值得注意的是,VILA存在增强的变体,例如VILA2 (Fang等,2024)以提高性能和X-VILA (Ye等,2024)以实现跨模态理解、推理和生成。对于作者的模型架构和训练 Pipeline ,作者遵循标准 VILA-1.5 版本。
序列并行和混合策略。长序列训练示例通常超出了单个设备的内存容量。为解决这个问题,序列并行主义已于文本LLM社区中广泛采用,将单个序列分布到多个设备上。具体地,环形系统 Li等人(2021,2023a;Liu等人,2023a)使用点对点(P2P)通信原语共同计算注意力模块,而 DeepSpeed-Ulysses Jacobs等人(2023)使用所有到所有(A2A)原语在注意力计算期间交替将序列维度和注意力头维度分割。Ulysses通常由于其更有效的A2A通信原语和更大的、无分割计算块超过环形SP,实现更高的吞吐量。然而,其可扩展性受注意力头数的限制。最近,USP (Fang和Zhao,2024)作为第一个集成环形SP和Ulysses SP的方法引入,结合了两种方法的优点。LoongTrain (Gu等人,2024)进一步优化了通信和放置策略,提高了训练效率。遵循 (Fang和Zhao,2024;Gu等,2024),作者将系统扩展到多模态场景,以适应复杂的注意力 Mask 和变量长输入序列。作者的工作是首次设计和实现了一个序列并行系统为视觉语言模型。
3 LongVilla Training Pipeline
如图1所示,在作者的流水线中,有五个训练阶段,即:阶段1:多模态对齐,阶段2:大规模预训练,阶段3:监督微调,阶段4:上下文扩展用于LLM,阶段5:长监督微调。阶段1、2和3遵循VILA Lin等人(2023b)的方法,首先在LLM与视觉编码器之间建立联系,然后在更大的数据集上进行预训练。在阶段1中,只有多模态投影器是可训练的,其他部分均被冻结。在阶段2中,作者冻结了视觉编码器,并训练LLM和多模态投影器。在阶段3中,作者完全针对短数据指令对模型进行微调,例如图像和短片数据集。之后,作者利用仅以文本为基础的数据集,在持续预训练的方式下扩展LLM的上下文长度。在阶段4中,作者采用MM-SP系统(SS4)通过长视频监督微调增强后续指令能力。请注意,在最后一次阶段,所有参数都是可训练的。
Stage1&2&3: Alignment, Pre-training, and Short Supervised Fine-tuning
在大规模训练之前,作者首先使用开源的图像和视频描述数据集来训练阶段(1)中的多模态项目器,以进行多模态对齐。请注意,遵循(Lin等人,2023b),图像编码器和解码器在这个过程中都是冻结的。然后,作者进行大规模预训练,学习在规模上的通用多模态能力。为了提高大规模开源数据集的质量,作者遵循VILA(Fang等人,2024)将COYO-25M(Lin等人,2023b; Byeon等人,2022)重新标记为VILA-1.5-40B(Lin等人,2023b)。监督微调过程包括混合数据类型,包括图像和视频。对于短视频理解,作者利用开源的视频指令跟随数据集,例如YouCook2 和ShareGPTVideo(Zhang等人,2024b)。
Stage4: Context Extension for LLMs
作者的实证研究表明,在与人机监督微调长视频数据集之前,必须延长语言模型的上下文长度。根据作者方法的第二阶段,作者对LLM进行续预训练,将上下文长度提高至262,144,总共使用170亿个标记。作者采用渐进训练时间表,逐步将上下文长度从8,192增加到65,536,最终达到262,144,并与(Fu等人,2024c)所提出的方法一致,使用Soboleva等人(2023)的SlimPajama数据集进行微调。
此外,在微调阶段,作者将(Su等人,2021)中描述的Rotary Position Embeddings(RoPE)的基础频率进一步提升。在262,144上下文长度的序列并行训练中,作者使用低秩适应性上下文扩展微调(Chen等人,2024b)。这些过程总共需要大约336个GPU小时,在配备80GB A100 GPU的机器上运行。
Stage5: Long Supervised Fine-tuning
长期视频指令遵循 为了便于长期视频的微调,作者也构建了一个新的、专门用于长期视频训练的数据集,其中每个类别包含15,292个视频。作者使用的是Shot2Story数据集中(Han等人,2023年)的原始长期视频。每个视频包括不同的问题和答案:一个用于生成字幕,另一个用于回答问题,从而实现视频理解的多样化应用。图3说明了从长期视频中生成指令遵循数据集的过程。首先,将长期视频分割成较短的字幕,每个大约持续10秒钟。这些 clips 接下来被独立标注,使用 VILA-1.5 模型进行形容性字幕标注。然后,使用 LLM 生成这些 clips 字幕中的问题与答案对,这些问题涵盖了概括和其他与视频内容全面理解相关的 Query 。
如图4所示,左图将视频分类到多个领域,包括旅游与事件、体育、教育、宠物与动物、人与博客、新闻与政治、音乐、科学与技术、喜剧、娱乐、电影和游戏,以确保视频内容的广泛代表性。右图将问题类别分为空间、属性、行为、目标、OCR、简述和时间,反映了该数据集可以应对的 Query 和认知任务多样性。这个数据集为在有监督的微调中推进长期视频格式提供了丰富的资源。
获得长期视频数据集后,在有监督的微调中的应用带来了新的挑战,主要是由于每个样本中的帧数量巨大——通常在数百或甚至数千帧之间。例如,来自1400帧视频序列的一个单一序列可以包括约274k个标记。现有的数据并行训练系统难以处理这些庞大的上下文。为了解决这个问题,作者开发了 MM-SP 系统(SS4)以高效地训练长期视觉语言模型。
4 Multi-Modal Sequence Parallelism
训练长时间语义视觉语言模型(VLMs)导致了巨大的内存需求。最广泛使用的开源解决方案,完全分片数据并行,不能分发由单个序列生成的激活,因此不适合作者的需求。因此,作者开发了一种基于序列并行性的自定义系统(Li等人,2021年,2023a;刘等人,2023a;Jacobs等人,2023年),这是一种在现有基础模型系统中广泛使用的技术,用于优化仅针对文本的LLM训练。然而,作者发现现有系统的效率和可扩展性都不足以处理作者的长时间语义VLM工作负载。
Limitations of Existing Systems
在本节中,作者探讨了现有的序行并行系统在处理多模态语言模型时的效率低下问题。
模态异质性。在仅包含文本的语言模型中,文本由单个分词器处理为 Token ,可以方便地将 Token 分配到多个GPU上。然而,视觉语言模型(VLMs)利用了编码器架构,其中非文本数据在训练过程中最初使用占位符 Token (例如)表示,然后通过训练转换为多个真实 Token 。例如,一个视频帧通常需要约256个 Token (Lin et al., 2023b)。由于文本和视觉模态的不同的处理要求,将占位符 Token 视为与文本 Token 相同的做法可能导致GPU工作负载的不平衡(图5)。
网络异质性。作者的多模态包含非常长的视频(图1),需要在一个多节点设置中采用序列并行性。在多节点设置中,节点间的网络带宽和节点内的网络带宽有显著差异。例如,NVIDIA DGX H100在节点内GPU通信中使用NVLink 900 GB/s,在节点间GPU通信中使用InfiniBand 50 GB/s(单路径),导致带宽差异18倍。以前的工作关于环式序列并行性(Li et al., 2021, 2023; Liu et al., 2023; Zhu, 2023)忽略了GPU网络的异质性,并在节点间和节点内都依赖点对点通信。这种设计通常会导致过度的通信成本,通信成本通常与计算任务重叠。然而,作者发现这种设计并不能始终隐藏开销,甚至可能减慢计算 Kernel (表1)。
作者的多模态方法涉及到处理非常长的视频,需要在多节点设置中使用序列并行性。在这样的环境中,节点间和节点内的网络带宽存在显著差异。例如,NVIDIA DGX H100在节点内GPU通信中使用NVLink 900 GB/s,在节点间GPU通信中使用InfiniBand 50 GB/s(单路径),导致带宽差异18倍。以前关于环式序列并行性的工作忽略了GPU网络的异质性,并依赖于节点间和节点内的点对点通信。这种方法会带来巨大的通信成本,通信成本通常与计算任务重叠。然而,作者发现这种设计并不能始终减轻开销,而且可能会减慢计算 Kernel (表1)。
有限的顶级序列长度。深层速度Ulysses(Jacobs et al., 2023)提出了一个潜在的解决方案,通过采用所有到所有通信原语,减少了整体通信量。然而,这种方法也有其局限性。设计依赖于在注意力计算过程中并行化注意力头维度而不是序列维度进行。因此,深层速度Ulysses不能有效地扩展超出注意力头数量。例如,Llama-3 8B模型使用具有8个键值头的关键-值注意力(GQA),限制了最大序列并行度为8。即使使用复用为键值头,引入了一些额外的通信开销(Li et al., 2023),但可实现的序列并行度仍然受到限制,为32( Query 头数量)。这种限制对于处理非常长的序列(如全长电影)来说是不够的。
Multi-Modal Sequence Parallelism Training Mode
在识别出现有系统中存在局限性之后,作者得出结论:理想的跨模态序列并行性方法应优先考虑效率和可伸缩性,通过同时处理模态和网络异质性来实现,也应能扩展到超过注意力头数量。为实现这一点,作者采用2D-attention(Fang和Zhao,2024;Gu等人,2024)机制进行序列并行性。例如,如图5左所示,要实现2节点之间的8度序列并行性,作者使用2D-SP构建一个4×2通信网格。在此设置中,具有4个大小过程组的A2A过程组根据头维度分配QKV张量,并在每个节点内根据序列维度重新划分。同时,具有2个大小过程组的P2P过程组在节点之间传输划分的KV块。此外,为了更详细地解释2D-attention机制的工作方式,作者在图11中使用不同的方法显示了注意力计算时间表。
MM-SP工作流程:为了应对模态异质性的挑战,作者提出了一种两阶段的分片策略,以优化模态编码和语言建模阶段的计算工作量。如图6所示,该过程首先将图像(例如视频帧)均匀分布在序列并行性(SP)过程组中的设备上,从而在图像编码阶段实现负载均衡。在第二阶段,作者将全局视觉和文本输入聚合为 Token 级分片。为了支持基于环的注意力,作者为序列添加任意占位符 Token ,以确保每个序列能够根据环的SP度均匀划分。这种调整保持了与原始方法一致性,通过修改标签输入来忽略计算中的填充 Token 。作者实现了一种平衡分片策略,从两端向每个排名分配上下文,以确保在各排名之间实现平等的计算。这种策略的有效性将在后来的(表4)中得到证明。由于在训练过程中只执行一次此重分配,因此开销最小。最后,这些平衡的局部输入将处理
Multi-Modal Sequence Parallelism Inference Mode
作者通过序列并行训练开发的模型能够处理多模态的长序列多端下游任务。然而,最常用的推理系统,基于HuggingFace Transformers,通常在单个GPU上运行。这种缺乏分布式实现限制了推理过程中可以处理的最大序列长度。在HuggingFace Transformers内部,最直接、最用户友好的解决方案是使用其层间并行推理特征,将单个模型在层-by-层的方式下跨越多个设备(Huang等人,2019;Narayanan等人,2019)。但是,这种方法低效,因为它只激活一次GPU。此外,这种方法很难支持长序列长度,因为第一批张量(如输入嵌入和图像)在解码过程中不断变化,这导致了整个系统的性能瓶颈。
为了克服这些限制,作者在VLMs中实现了分布式推理的序列并行。与训练模式不同,推理系统必须另外管理在解码阶段(如输入标记和位置编码)中逐步变化张量。系统还需要检测持有最后一个标记的机器发出的信号来适当地终止分布式过程。与HuggingFace的本地管线并行策略相比,作者的推理模式更有效,因为所有设备同时参与计算,加速了与机器数量成正比的过程(如图7所示)。此外,它还具有可扩展性,设备上的内存均匀分布,可以支持具有额外机器的长序列。
5 Evaluation
作者从系统的角度和建模的角度评估作者的全栈解决方案。首先,作者展示了作者的训练和推理结果,以证明系统的效率和可扩展性,这使得作者能够进行长文本的训练和推理。然后,作者对作者的长文本模型在描述和指示跟随任务上的性能进行了评估。
Training and inference system
作者可以通过直接粘贴替换(monkey patching)的方式将作者的训练和推理系统集成到HuggingFace Transformers中,这与(Zheng等人,2023年)中阐述的流行的开源方法相符。在本文段中,作者将对训练系统的吞吐量,推理系统的延迟和最大支持序列长度进行定量评估。
5.1.1 Training system
表2:在32个H100 GPU上,各种Megatron-LM策略的训练吞吐量对比,以每次迭代(秒)计算(单位:秒)。“OOM”表示“内存溢出”。
基础设置和硬件设置 关于训练效率,作者将作者的系统与ZigZag环形序列并行性进行比较,它融合了负载均衡和GPU优化(ZiGZAGRingAttn以保持一致性)(李等,2023年;朱,2023年;刘等,2024年;科尔特哈利尼等,2023年)。作者使用了广泛采用的开源实现(朱,2023年)。为了减少模型的内存占用、梯度以及优化器状态的内存占用,作者采用了全分片数据并行主义(FSDP)(赵等,2023年),而不是零三(拉吉班handari等人,2020年)(表8)。此外,作者将作者的系统与由专家设计的高度优化的Megatron-LM(舒奥比等人,2019年;科尔特哈利尼等,2023年)系统进行比较,重点关注它们在实现序列并行性方面的技术,称为“上下文并行性”(CP)。作者还评估了一种混合策略,该策略在节点内部使用张量模型并行主义(TP),而在节点之间使用CP。这是Megatron-LM团队推荐的高级用法中的建议。
作者的大部分实验是在H100节点上进行的,每个节点配备8个H100(80GB)GPU,通过节点内的NVLink和400 Gbps的节点InfiniBand进行互连。对于涉及训练期间允许的最大序列长度,作者将设置扩展到32个A100节点,每个节点配备8个A100(80GB) GPU,结论与H100一致,因为总内存相等。作者基于8B模型进行评估,批量大小为1。由于Megatron-LM Baseline 不支持VLM训练,而且视觉编码器通常比LLMs小几个数量级,所以作者报告了没有视觉编码器的LLM主干的为主要结果。视觉编码器的详细剖析可在SS 5.1.3中找到。
吞吐量 图9 (a)和表2显示了在32个H100 GPU上测量的迭代墙时吞吐量。这些结果是在进行10次 Warm up 迭代后获得的,并在5次迭代中平均以最小化变异系数。作者的系统与ZigZag-RingAttn的速度提高2.1倍至5.7倍,并与深蓝速度相当。与Megatron-LM中更优化的环形序列并行实现CP相比,作者的方法实现了3.1倍至4.3倍的速度提高。这突显了作者的系统设计有效地解决了环形序列并行性的固有问题,正如SS 4.2中所讨论的那样。此外,作者的系统与Megatron-LM的混合策略相比实现了1.1倍至1.4倍的速度提高。值得作者注意的是,作者目前的系统实现是在Triton(蒂利特等人,2019年)中实现的,如果将其迁移到C ,可能会获得更大的速度提升。此外,作者还观察到Megatron-LM系统支持明显更低的最大序列长度,因此其结果不包括在下文中。作者还复制了这个实验,如表9中所示,并得到了类似的结果。
作者通过逐步增加每个GPU的序列长度从1k到10k,直到发生内存溢出错误,来评估固定数量的GPU所能支持的最大序列长度。结果总结在图8中。为了保证公平对比,禁用了激活预训练权重。纯数据并行主义在较大的集群大小上无法扩展到长视频。深蓝-Ulysses是根据注意力头进行分区的,这限制了其扩展到更高上下文长度的能力,因为8B模型只有32个注意力头。因此,当扩展到256 GPU时,作者的方法可以支持大约8倍更高的上下文长度。此外,作者的系统与ZigZag-RingAttn的上下文长度扩展相似,在256 GPU上支持超过200万的数据并行主义。
综上所述,作者的训练系统结合了两者的优点——与ZigZag-RingAttn的扩展性相当,同时具有深蓝-Ulysses的吞吐量。此外,与高度优化的Megatron-LM相比,它提供了1.3倍的速度提升,并支持2.5倍更长的上下文长度。
5.1.2 Inference system
作者使用一个拥有8个H100 GPU的单节点进行评估,同时使用8B模型(见表3和图9(b)),以评估作者的推理系统与HuggingFace Pipeline在并行性方面的差异。在8xH100 GPU的环境下,作者的系统相比于HuggingFace Pipeline实现了8.2倍的速度提升。这一显著的改进主要归因于HuggingFace Pipeline在推理时只激活一个GPU,而作者的方法可以充分利用所有GPU资源共同计算。表3对比了最大支持序列长度,作者的方法支持的序列长度比HuggingFace Pipeline的长2.9倍。具体而言,在96K个序列长度进行推理时,HuggingFace Pipeline在第一个GPU上存储了80GB的激活值,而在其他GPU上只存储了18GB,这种激活值分配的不均衡限制了可以处理的最大序列长度。
5.1.3 Effect of two-stage sharding
图10:在长视频 haystack 实验中的针与麦田比较。左图的32帧 Baseline 模型在32帧后无法检索到正确的针。相比之下,在1024帧上训练的 LongVILA 模型(右图)在274k上下文长度上具有99.5%的准确率。
作者使用视频字幕数据集(Chen等,2024a)来评估作者两阶段分片策略的影响。作者将作者的两阶段分片方法与仅根据图像数量分配工作负载的基础一阶段分片策略进行比较。作者测量不同数量H100 GPU循环中的每次迭代时间。对于k个GPU,作者使用每个视频k个图像和批次大小为k。表4中的结果显示,速度提高幅度在1%至7%之间。这种改进主要体现在更长字幕任务中,由于缺乏根据文本符号数量划分的基础设施,导致 Baseline 任务存在工作负载不平衡。
Needle-in-a-Haystack
在图10中,作者展示了针对长视频的" Needle in a Haystack "实验结果。遵循现有文献中确立的方法论(张等人),作者准备了一段长视频并从中采样了固定数量的帧。作者在各个深度插入特定设计的图像,并将任务交给模型回答相应的问题。Baseline 模型(左)在32帧处之后无法准确检索正确图像。相比之下,LongVILA模型(右)在帧数和深度方面都展示了增强的性能。
General Video Understanding
表5呈现了各模型在视频MME基准测试上的性能,比较了在不同视频长度下它们的有效性,以及整体性能。利用256帧的LongVILA-8B模型在整个性能上达到了50.5的总分。作者还对表6中第3阶段的和第4阶段的影响进行了消融实验。
LongVila-Caption
作者已经开发了一个长视频字幕标注的基准测试,名为LongVILA-Caption,该基准测试包括100个长视频,每个视频的标题如第3.3节所述,并经过人工检查。遵循VideoChatGPT(Maaz等,2024)的评估方法,作者根据每个模型的正确性、详细方向和上下文理解评估其预测。例如,作者通过使用GPT-4使用特定提示来判断得分是否正确。此外,作者在图13和14中提供了两个示例,这些示例包括体育和技术领域的长视频。这些示例表明,与短帧相比,具有处理更多帧能力的LongVILA,对视频的理解更加全面。
性能显著提高。具体而言,平均分数从2.00提高到3.26,这突显了模型在生成更准确、丰富的标题方面能力的增强。
6 Conclusion
本文介绍LongVILA,一种全面的全栈式长视频视觉语言模型解决方案,覆盖模型训练流程和分布式系统。
基于作者精选的长视频数据集和五阶段训练 Pipeline ,作者的LongVILA-8B模型将可实现的可解析帧数从8扩展到1024,精确捕获2小时之内的“针叶堆 haystack”视频的细粒度信息,并实现了在视频问答和字幕任务上都有良好的结果。
此外,作者的系统能够有效扩展上下文长度至200万标记,与环序列并行实现相比速度提高了2.1倍至5.7倍,与Megatron上下文并行 张量并行相比速度提高了1.1倍至1.4倍。
参考
[1].LongVILA: Scaling Long-Context Visual Language Models for Long Videos.