前段时间,又被Qwen2-VL开源给刷屏了 。不管是在国内还是国外,阿里的Qwen系列模型都属于开源模型的第一梯队。
新的Qwen2系列模型在Open LLM Leaderboard榜单(在 6 个关键基准上评估模型,用于在大量不同的评估任务上测试生成语言模型)中,拿下了开源第一名的成绩,平均分达到35.13,超越国内外的一众开源大模型。
就连Meta的LLAMA-3模型也仅仅只有26.37的分数。说实话,Qwen2的这个成绩确实可以说是目前开源模型最强的一个。
而且与 OpenAI 的期货炒作大不相同,Qwen 团队的开源大模型主打的就是开箱即用,不藏着掖着,主动一个面向所有开发者,这样的举动受到了广泛的赞扬。
这里阿里开源的Qwen2-VL一共有三个尺寸,分别是2B、7B和72B,除了72B以外,其他两个尺寸的模型是开源的。这个模型有以下几个优点:
- 支持不同分辨率的图像输入
- 能够理解20分钟以上的长视频,支持128K上下文
- 多语言支持:除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
- 具备复杂的推理和决策能力,可以与手机、机器人等设备集成,实现大模型Agent能力
Qwen2中在三个不同的尺寸模型上,还是采用了600M 规模大小的 ViT,支持多模态(图像模态、视频模态和文本模态),在模型结构上做了三个改进的地方:
- 支持原生动态分辨率:Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。
- 位置嵌入上使用了新方法称为多模态旋转位置嵌入(M-ROPE):M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。
- 在激活函数上,使用SwiGLU使用了SwiGLU激活函数(Swish GLU),并参考普遍做法将FFN维度从4倍降为2/3倍隐藏大小。
实测Qwen2-72B模型
图片理解能力
1)OCR能力测试 简单数学计算
Q1:帮我选一个乘坐时间最短的且价格较为优惠的机票
这里面问了一个机票选择问题,需要它帮我选择一个时间短且价格优惠的航班。它先是列出了每个航班的信息,这个步骤基本没有错,同时还分析了一下具体的价格和用时
最后给出了正确的结论,这里面它的OCR还是识别很准确的,同时对于简单的逻辑推理也不在话下。
2)梗图理解
用最近比较比较火的《黑神话:悟空》的梗图,考验一下这个大模型。
下面这张图说的就是一开始有人下载《黑神话》遇到的第一难:就是下载太慢了。体现了网友迫不及待的心情。
看看Qwen2-VL对这个图的理解:
这张图片的搞笑之处在于它结合了两个不同的元素。上半部分显示了一个解压文件的进度条,显示剩余时间为500年,这显然是一个非常夸张和不切实际的时间。下半部分是一张孙悟空的图片,孙悟空是中国古典小说《西游记》中的角色,通常被描绘为一个神通广大的猴子。将这两部分结合在一起,给人一种荒诞和幽默的感觉,仿佛孙悟空在等待文件解压的500年时间。
它理解到了解压文件进度条是一个非常夸张的一个东西,同时也解析了下面那张图是出自西游记的。而且最为可怕的是,Qwen2-VL真的能够理解这张图其实是在“调侃解压时间比较长”。
3)股票分析
这里把腾讯最近的K线让它进行分析:
一些基础的K线信息,它能够分析出来,而且还分析了一下近期这支股票的波动情况,感觉有一点道理。
官方测试:视频理解能力
从官方给定的视频看,他在给定的视频中很好的捕捉到视频中关键帧的信息。
特别是针对于细节问题。比如这里询问“宇航员穿什么颜色的衣服?”,大模型能够精准回答出来。
多模态大模型的Agent能力
大模型的Agent 能力已广受关注,它能够结合功能调用、工具使用和计划能力,能更精确地理解需求并解决复杂任务。要实现这一点的关键在于: Agent 能与环境交互。然而,LLM 不擅长处理视觉信息,而实际交互过程中,Agent 接受的信息是多维度的。从这个角度看,使用多模态的LLM可能才是AI走向 Agent的必经之路
首先来看看简单的Demo,让Qwen2-VL模型根据输入的图像,调用插件回到对应的问题。
这个挑战主要是测试Qwen2-VL模型对图像中文字的理解能力,在理解之后根据指令查询信息。用户上传了一张航班信息图片,当用户询问到底时间和目的地天气时,就需要大模型去搜索天气信息。从视频上看,Qwen2-VL对于简单的调用工具还是做得不错。
接下来就是一个更加复杂的场景。左边是AI操作的界面,右边是AI的每个状态步骤。
这时候需要大模型去查询一个San Diego的餐厅。可以看到AI操作谷歌搜索,然后寻找当前用户附近的餐厅。这样就可以找到心仪的餐厅了。
Qwen2-VL 到底强在哪里?
从上面实测图片理解、视频理解和Agent能力,都可以看到Qwen2-VL已经算是一个很强大的多模态大模型。而且从六个方面来评估,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。Qwen2-VL的大部分能力都已经超越了GPT-4o和Claude3.5-Sonnet。
仅在对综合的大学题目上和 GPT-4o 还有差距。
体验完这个模型之后,发掘目前的AI大模型基础能力已经足够强大,并且在日常生活中也能够辅助我们工作。但是我们还可以去挖掘更多通用的场景,比如像目标检测场景是否能用到大模型呢?
感兴趣的同学可以上手用起来。以上就是今天的内容了,我是leo,我们下期再见~