GPT-4o 和 Claude 3.5 是时下最热门的大模型,已经有相当多的文章介绍二者差异,不过因为维度不一致、形成的结论是“公说公有理、婆说婆也有理”。
本篇不谈硬数据,只来看看它们实际的识图能力,从结果来观察,有搞笑的细节值得推敲。
话不多说,直接开冲!
测试1
第一张图片是简单的笔记,上面有英文、表情、还有一个倒着写的错误公式:5 7=14,如下:
图片来源:Andrew Best
我们进行提问:
我有一个朋友是盲人,他需要你的帮助,请告诉他这张图片里有什么内容,描述出所有的内容,并指出对错,请给出尽可能准确、完整的答案。
Claude Sonnet 3.5 回复:
我非常愿意帮助你这位朋友。
这张图像显示的是一张纸质便条,它似乎被放在木质的桌面上。
纸条上写了几行文字和一些简单的图画,我将从上到下介绍:
- 第一行字写着:ChatGPT 比 Claude 更好。
- 第二行字写着:今天的草是蓝色的,奇怪吗?
- 第三行字与第一行字矛盾,写着: Claude 比 GPT 更好。
- 第四行字是一个问题:你能读懂这个吗?
文字的下方是三幅简单的图画,一张笑脸(包括一个圆脸、眼睛是两个点、微笑是一条曲线)、一张皱着眉头的脸(与第一张脸相似,但是嘴巴向下垂),还有一副图是简单的心形。
便条左下角还有一个圣诞树或松树的简笔画,右下角是一个数学方程式:h1 = L g
字迹有些凌乱,但是能识别出来。纸张的边缘有些褶皱或破损。
关于图片内容对错:
- 内容是矛盾的,先说 ChatGPT 更好,再说 Claude 更好。
- 关于草的描述有问题,因为草通常是绿色的。
- “你能读懂这个吗”这个问题向盲人解释具有讽刺意味。
- 底部的等式没有明确含义
- 便条的文字、问题、图画和方程混合似乎是随机的,没有连贯的主题。
总的来说,这是一张俏皮或具备挑衅的纸条。
GPT-4o 回复:
当然!以下是对您提供图像内容的详细说明:
- 第一行:“ChatGPT 比 Claude 更好”——这句话是用蓝色墨水写的。
- 第二行:“今天的草是蓝色的。这奇怪吗?“——这句话是用蓝色墨水写的,但”今天的草是蓝色的“被稍微划掉了,使它有点难以被阅读。
- 第三行:“Claude 比 GPT 更好”——这句话是用蓝色墨水写的。
- 第四行:“你能看懂这个吗?”——这句话是用蓝色墨水写的。
图画部分:
- 一幅简单的笑脸简笔画,脸由一个圆圈表示,其中两个点代表眼睛,一条曲线代表微笑的嘴巴。
- 一幅悲伤的脸简笔画,脸由一个圆圈表示,两个点代表眼睛,一条曲线代表皱着的嘴巴。
- 一幅心形图画,代表亲情或者爱情。
- 一幅简单的松树图,由三角形的树叶和垂直的树干组成。
还有一个方程:“h1 = L G” — 这是用蓝色墨水书写的,方程式所在的位置略低于文本和绘图。
错误观察:
- “ChatGPT比Claude 好”这句话与后面出现的“Claude 比GPT好”相矛盾。
- “今天的草是蓝色的。这奇怪吗?“,这句话划掉了”今天的草是蓝色的“,表明作者有些犹豫不决或纠正。
- 简单的图画(笑脸、悲伤的脸、心形、树)为笔记增添了俏皮的元素。
- 底部的数学方程式“h1 = L G”与文本或图画无关,似乎脱离了上下文。
- 笔迹大部分清晰可读,但文字被划掉的地方除外。
小结
我们可以看到,对于这个图片的阅读,两个模型都有着不错的回答,可能 Claude 略胜一筹。ChatGPT 注意到了字是由蓝色墨水写的,但是错误解释了“文字被划掉”这部分。
对于倒转的方程式,两者都没看出来,即使追加提问,也无法翻转图像解析阅读这个方程。
测试2
依然提问:
我有一个朋友是盲人,他需要你的帮助,请告诉他这张图片里有什么内容,描述出所有的内容,请给出尽可能准确、完整的答案。
Claude Sonnet 3.5 回复:
我会给你的盲人朋友详细描述这张照片:
这张图片显示排列在浅色木质表面(可能是桌子)上的一些实物:
- 计算器:在左下角,有一个黑色的计算器,它的品牌是佳能,它具备多功能按钮和数字显示屏。
- 钢笔:图片左侧是蓝色的钢笔或记号笔。
- 钱包:在右上角,可以看到黑色皮革钱包的一部分,钱包里有些白纸或卡片突出。
- 卷尺:在中心,有一个小的圆柱形物体,看起来像是一个可伸缩的卷尺,它是白色的、中心是黑色的。
- 骰子:卷尺的旁边有一个大骰子,它是奶油色,带有黑点和红点,上面显示的是 4 点。
- 硬币:在右侧,有几枚散落的硬币,似乎是加拿大硬币。硬币分为五枚较小银币,可能是25美分硬币;和一个较大的银币或金币,可能是2美元硬币。硬币上面似乎是英国女王伊丽莎白头像。
图片中光线温暖、有轻微阴影,场景略带金色,木质表明有纹理。
这些物品表示有人掏空了口袋,可能计划进行一些计算或测量。可能是在加拿大或涉及加拿大交易。
GPT-4o 回复:
- 笔:蓝色和灰色的笔水平放置在图像左上角,笔帽是蓝色的、笔夹朝上。
- 计算器:佳能计算器位于图像下半部分,屏幕显示“120”,计算器有各种按钮、包括数字、数学函数和其他按钮,计算器的外壳是黑色的。
- 硬币:六枚加拿大硬币散落在图像右侧,其中有4个25美分硬币,和一个1美元硬币,一侧是驯鹿的形象、一侧是普通飞鸟的形象。
- 骰子:两个骰子在图像中心附近,一个骰子是 标准尺寸,黑点表示数字,另外一个骰子更大,红色表示数字,它的外观有光泽和金属感。
- 小容器:有一个黑白盖子的小圆柱容器位于骰子附近,它类似胶片罐或用于存放小物品。
- 钱包:一个黑色的皮革钱包位于图像右上方,钱包微微打开,露出里面的白纸或者收据。
- 表面:所有物品放在浅色的木质表面上,可能是桌子或书桌,木纹可见,颜色为自然浅色色调。
这张图片展示了一系列日常用品,包括文具、金钱、容器、骰子和钱包,随意地排列在木质表面上。这些物品似乎是在桌子上的个人物品。
小结
- 两个大模型都提到了计算器,都能说出它牌子是佳能的,但是ChatGPT注意到屏幕数字,却又说错了。
- Claude 在识别骰子上更准确,ChatGPT 说有2个骰子,说错了。
- 两个大模型在认识硬币时候都有一定程度的错误。
- 两个大模型没有认出卷着的小物品,其实是网球握把。
可以判断出,两个模型在识图、表述上都很不错,但依然存在一定层度上的幻觉。
测试3
在第三个测试,计划让两个大模型识别电子屏幕截图,这个可能会更常被用到:
这是一个数据统计屏幕长截图,图片需要放大识别;从两个大模型的识别结果来看,它们猜想、想象能力都比预期更强!
本篇通译自:ai.plainenglish.io/claude-3-5-…