Qwen2-VL多模态大模型开源了~性能实现代际飞越

前段时间，又被Qwen2-VL开源给刷屏了。不管是在国内还是国外，阿里的Qwen系列模型都属于开源模型的第一梯队。

新的Qwen2系列模型在Open LLM Leaderboard榜单（在 6 个关键基准上评估模型，用于在大量不同的评估任务上测试生成语言模型）中，拿下了开源第一名的成绩，平均分达到35.13，超越国内外的一众开源大模型。

就连Meta的LLAMA-3模型也仅仅只有26.37的分数。说实话，Qwen2的这个成绩确实可以说是目前开源模型最强的一个。

而且与 OpenAI 的期货炒作大不相同，Qwen 团队的开源大模型主打的就是开箱即用，不藏着掖着，主动一个面向所有开发者，这样的举动受到了广泛的赞扬。

这里阿里开源的Qwen2-VL一共有三个尺寸，分别是2B、7B和72B，除了72B以外，其他两个尺寸的模型是开源的。这个模型有以下几个优点：

支持不同分辨率的图像输入
能够理解20分钟以上的长视频，支持128K上下文
多语言支持：除英语和中文外，Qwen2-VL 现在还支持理解图像中的多语言文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
具备复杂的推理和决策能力，可以与手机、机器人等设备集成，实现大模型Agent能力

Qwen2中在三个不同的尺寸模型上，还是采用了600M 规模大小的 ViT，支持多模态（图像模态、视频模态和文本模态），在模型结构上做了三个改进的地方：

支持原生动态分辨率：Qwen2-VL 能够处理任意分辨率的图像输入，不同大小图片被转换为动态数量的 tokens，最小只占 4 个 tokens。

位置嵌入上使用了新方法称为多模态旋转位置嵌入（M-ROPE）：M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分，使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

在激活函数上，使用SwiGLU使用了SwiGLU激活函数(Swish GLU)，并参考普遍做法将FFN维度从4倍降为2/3倍隐藏大小。

实测Qwen2-72B模型

图片理解能力

1）OCR能力测试简单数学计算

Q1：帮我选一个乘坐时间最短的且价格较为优惠的机票

这里面问了一个机票选择问题，需要它帮我选择一个时间短且价格优惠的航班。它先是列出了每个航班的信息，这个步骤基本没有错，同时还分析了一下具体的价格和用时

最后给出了正确的结论，这里面它的OCR还是识别很准确的，同时对于简单的逻辑推理也不在话下。

2）梗图理解

用最近比较比较火的《黑神话：悟空》的梗图，考验一下这个大模型。

下面这张图说的就是一开始有人下载《黑神话》遇到的第一难：就是下载太慢了。体现了网友迫不及待的心情。

看看Qwen2-VL对这个图的理解：

这张图片的搞笑之处在于它结合了两个不同的元素。上半部分显示了一个解压文件的进度条，显示剩余时间为500年，这显然是一个非常夸张和不切实际的时间。下半部分是一张孙悟空的图片，孙悟空是中国古典小说《西游记》中的角色，通常被描绘为一个神通广大的猴子。将这两部分结合在一起，给人一种荒诞和幽默的感觉，仿佛孙悟空在等待文件解压的500年时间。

它理解到了解压文件进度条是一个非常夸张的一个东西，同时也解析了下面那张图是出自西游记的。而且最为可怕的是，Qwen2-VL真的能够理解这张图其实是在“调侃解压时间比较长”。

3）股票分析

这里把腾讯最近的K线让它进行分析：

一些基础的K线信息，它能够分析出来，而且还分析了一下近期这支股票的波动情况，感觉有一点道理。

官方测试：视频理解能力

从官方给定的视频看，他在给定的视频中很好的捕捉到视频中关键帧的信息。

特别是针对于细节问题。比如这里询问“宇航员穿什么颜色的衣服？”，大模型能够精准回答出来。

多模态大模型的Agent能力

大模型的Agent 能力已广受关注，它能够结合功能调用、工具使用和计划能力，能更精确地理解需求并解决复杂任务。要实现这一点的关键在于： Agent 能与环境交互。然而，LLM 不擅长处理视觉信息，而实际交互过程中，Agent 接受的信息是多维度的。从这个角度看，使用多模态的LLM可能才是AI走向 Agent的必经之路

首先来看看简单的Demo，让Qwen2-VL模型根据输入的图像，调用插件回到对应的问题。

这个挑战主要是测试Qwen2-VL模型对图像中文字的理解能力，在理解之后根据指令查询信息。用户上传了一张航班信息图片，当用户询问到底时间和目的地天气时，就需要大模型去搜索天气信息。从视频上看，Qwen2-VL对于简单的调用工具还是做得不错。

接下来就是一个更加复杂的场景。左边是AI操作的界面，右边是AI的每个状态步骤。

这时候需要大模型去查询一个San Diego的餐厅。可以看到AI操作谷歌搜索，然后寻找当前用户附近的餐厅。这样就可以找到心仪的餐厅了。

Qwen2-VL 到底强在哪里？

从上面实测图片理解、视频理解和Agent能力，都可以看到Qwen2-VL已经算是一个很强大的多模态大模型。而且从六个方面来评估，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。Qwen2-VL的大部分能力都已经超越了GPT-4o和Claude3.5-Sonnet。

仅在对综合的大学题目上和 GPT-4o 还有差距。

体验完这个模型之后，发掘目前的AI大模型基础能力已经足够强大，并且在日常生活中也能够辅助我们工作。但是我们还可以去挖掘更多通用的场景，比如像目标检测场景是否能用到大模型呢？

感兴趣的同学可以上手用起来。以上就是今天的内容了，我是leo，我们下期再见~

腾讯技术创作特训营S9开源大模型通义千问 LLM

0 人点赞