支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

计算机视觉研究院专栏

Column of Computer Vision Institute

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。

与 HuggingFace 的原生 pipeline 并行策略相比，本文的推理模式更加高效，原因在于所有设备同时参与计算，从而与机器数量呈正比地加速进程，具体如下图 6 所示。同时，该推理模式是可扩展的，内存均匀地分布给各个设备，以使用更多机器来支持更长的序列。

该研究通过逐步将序列长度从 1k 增加到 10k 来评估固定数量 GPU 支持的最大序列长度，直到发生内存不足错误。结果总结在图 9 中。

当扩展到 256 个 GPU 时，本文方法可以支持大约 8 倍的上下文长度。此外，所提系统实现了与 ZIGZAG-RINGATTN 类似的上下文长度扩展，在 256 个 GPU 上支持超过 200 万的上下文长度。

表 3 比较了支持的最大序列长度，该研究提出的方法支持的序列比 HuggingFace Pipeline 支持的序列长 2.9 倍。

图 11 展示了长视频大海捞针实验的结果。相比之下，LongVILA 模型（右）在一系列帧数和深度上都表现出了增强的性能。

表 5 列出了各种模型在 Video MME 基准上的表现，比较了它们在短视频、中视频和长视频长度上的有效性以及整体性能。LongVILA-8B 采用 256 帧，总分为 50.5。

研究者还在表 6 对第 3 阶段和第 4 阶段的影响进行了消融研究。

表 7 显示了在不同帧数（8、128 和 256）上训练和评估的 LongVILA 模型的性能指标。随着帧数的增加，模型的性能显著提高。具体来说，平均分数从 2.00 上升到 3.26，突显了模型在更多帧数下生成准确丰富字幕的能力。

END

转载请联系本公众号获得授权

模型视频系统性能论文

0 人点赞