Qwen2-VL多模态大模型开源了~性能实现代际飞越

2024-09-14 12:08:15 浏览数 (3)

前段时间,又被Qwen2-VL开源给刷屏了 。不管是在国内还是国外,阿里的Qwen系列模型都属于开源模型的第一梯队。

新的Qwen2系列模型在Open LLM Leaderboard榜单(在 6 个关键基准上评估模型,用于在大量不同的评估任务上测试生成语言模型)中,拿下了开源第一名的成绩,平均分达到35.13,超越国内外的一众开源大模型。

就连Meta的LLAMA-3模型也仅仅只有26.37的分数。说实话,Qwen2的这个成绩确实可以说是目前开源模型最强的一个。

而且与 OpenAI 的期货炒作大不相同,Qwen 团队的开源大模型主打的就是开箱即用,不藏着掖着,主动一个面向所有开发者,这样的举动受到了广泛的赞扬。

这里阿里开源的Qwen2-VL一共有三个尺寸,分别是2B、7B和72B,除了72B以外,其他两个尺寸的模型是开源的。这个模型有以下几个优点:

  • 支持不同分辨率的图像输入
  • 能够理解20分钟以上的长视频,支持128K上下文
  • 多语言支持:除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
  • 具备复杂的推理和决策能力,可以与手机、机器人等设备集成,实现大模型Agent能力

Qwen2中在三个不同的尺寸模型上,还是采用了600M 规模大小的 ViT,支持多模态(图像模态、视频模态和文本模态),在模型结构上做了三个改进的地方:

  • 支持原生动态分辨率:Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。

  • 位置嵌入上使用了新方法称为多模态旋转位置嵌入(M-ROPE):M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

  • 在激活函数上,使用SwiGLU使用了SwiGLU激活函数(Swish GLU),并参考普遍做法将FFN维度从4倍降为2/3倍隐藏大小。

实测Qwen2-72B模型

图片理解能力

1)OCR能力测试 简单数学计算

Q1:帮我选一个乘坐时间最短的且价格较为优惠的机票

这里面问了一个机票选择问题,需要它帮我选择一个时间短且价格优惠的航班。它先是列出了每个航班的信息,这个步骤基本没有错,同时还分析了一下具体的价格和用时

最后给出了正确的结论,这里面它的OCR还是识别很准确的,同时对于简单的逻辑推理也不在话下。

2)梗图理解

用最近比较比较火的《黑神话:悟空》的梗图,考验一下这个大模型。

下面这张图说的就是一开始有人下载《黑神话》遇到的第一难:就是下载太慢了。体现了网友迫不及待的心情。

看看Qwen2-VL对这个图的理解:

这张图片的搞笑之处在于它结合了两个不同的元素。上半部分显示了一个解压文件的进度条,显示剩余时间为500年,这显然是一个非常夸张和不切实际的时间。下半部分是一张孙悟空的图片,孙悟空是中国古典小说《西游记》中的角色,通常被描绘为一个神通广大的猴子。将这两部分结合在一起,给人一种荒诞和幽默的感觉,仿佛孙悟空在等待文件解压的500年时间。

它理解到了解压文件进度条是一个非常夸张的一个东西,同时也解析了下面那张图是出自西游记的。而且最为可怕的是,Qwen2-VL真的能够理解这张图其实是在“调侃解压时间比较长”。

3)股票分析

这里把腾讯最近的K线让它进行分析:

一些基础的K线信息,它能够分析出来,而且还分析了一下近期这支股票的波动情况,感觉有一点道理。

官方测试:视频理解能力

从官方给定的视频看,他在给定的视频中很好的捕捉到视频中关键帧的信息。

特别是针对于细节问题。比如这里询问“宇航员穿什么颜色的衣服?”,大模型能够精准回答出来。

多模态大模型的Agent能力

大模型的Agent 能力已广受关注,它能够结合功能调用、工具使用和计划能力,能更精确地理解需求并解决复杂任务。要实现这一点的关键在于: Agent 能与环境交互。然而,LLM 不擅长处理视觉信息,而实际交互过程中,Agent 接受的信息是多维度的。从这个角度看,使用多模态的LLM可能才是AI走向 Agent的必经之路

首先来看看简单的Demo,让Qwen2-VL模型根据输入的图像,调用插件回到对应的问题。

这个挑战主要是测试Qwen2-VL模型对图像中文字的理解能力,在理解之后根据指令查询信息。用户上传了一张航班信息图片,当用户询问到底时间和目的地天气时,就需要大模型去搜索天气信息。从视频上看,Qwen2-VL对于简单的调用工具还是做得不错。

接下来就是一个更加复杂的场景。左边是AI操作的界面,右边是AI的每个状态步骤。

这时候需要大模型去查询一个San Diego的餐厅。可以看到AI操作谷歌搜索,然后寻找当前用户附近的餐厅。这样就可以找到心仪的餐厅了。

Qwen2-VL 到底强在哪里?

从上面实测图片理解、视频理解和Agent能力,都可以看到Qwen2-VL已经算是一个很强大的多模态大模型。而且从六个方面来评估,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。Qwen2-VL的大部分能力都已经超越了GPT-4o和Claude3.5-Sonnet。

仅在对综合的大学题目上和 GPT-4o 还有差距。

体验完这个模型之后,发掘目前的AI大模型基础能力已经足够强大,并且在日常生活中也能够辅助我们工作。但是我们还可以去挖掘更多通用的场景,比如像目标检测场景是否能用到大模型呢?

感兴趣的同学可以上手用起来。以上就是今天的内容了,我是leo,我们下期再见~

0 人点赞