两大模型评估,GPT-4o和Gemini 1.5 pro到底选择哪个?

2024-08-15 13:29:11 浏览数 (2)

还记得上半年,GPT-4o和Gemini 1.5 pro模型同时发布,那么针对这两个模型,普通用户到底选择哪个呢?这篇文章主要从多个不同的问题,测试一下两个大模型的回答,来评估一下他们的一些效果。

首先先来介绍一下Gemini 1.5 pro的一些特性。

1.Gemini 1.5 pro特性

上周,谷歌针对Gemini进行了又一次升级,其性能更加强大,同时处理上下文的能力也更加出色。

目前前两个月可以免费白嫖一波Gemini 1.5 pro:

https://gemini.google.com/

其模型具体能力,可以总结为以下两个方面:

  • 更长的上下文处理能力,对比于GPT-4(128K)和Claude 3(200K), Gemini 1.5 pro可以处理高达2M的token

高达2M token的上下文处理能力

Gemini 1.5 Pro 在所有模态(即文本、视频和音频)的“大海捞针”实验中,实现了近乎完美的召回 (>99.7%)。在不同模态下,其最大处理能力各不相同:

  • 文本模态可以扩展到 10M token(大约 7M 个单词)
  • 音频模式中的 9.7M token(最多 107 小时)
  • 视频模式中的 9.9M token(最多 10.5 小时)

从实验上来说,其上下文窗口就算增长到10M(文本模态下),检索不成功出现的概率也较少(基本只有几个红色点出现)。而且不仅仅是文本,连视频和语音上,也基本能检索出正确的答案。

而且Gemini 1.5 pro还对比了GPT-4 turbo,在128k文档下表现出现,但是128k以上,GPT-4 turbo已经处理不了了。

能力大幅度提升

5月的这个pro版本,对比于2月份的版本,在不同数据集上都有明显的上涨:

数学能力提升9.2;在基准测试集MMLU(人类常识)上,提升4.9;

当然,在代码能力和一些更具有挑战性问题上,Gemini1.5 pro也比以前的旧模型效果要好得多。

2.文本问答:GPT-4o效果比Gemini 1.5 pro好

第一道题主要是考一下大模型对于常识的理解。

Q1:麻辣螺丝钉怎么做?

GPT-4o和Gemini 1.5 pro都答错了这道题,识别不出来这不是一道菜名。但是从逻辑上来说,Gemini错得更加离谱,因为它一开始就默认为是“川菜”。而GPT-4o起码一开始不会认为它是一道菜名

第二道题主要是判断两个不同模型能不能识别用户的文字情绪。从结论上来看,GPT-4o对情绪捕捉更加敏感,同时解析了词语中的含义。而相比之下,Gemini只知道它是表达“喜爱”的情绪,没有更多的解析空间。

Q2:请判断这些句子中表达的情绪:我的猫好可爱♥♥

第三题是数学计算能力的,可以说GPT-4o完胜了Gemini。

Q3:假设一辆车可以在 3.85s 的时间内从 0 加速到 27.8 m/s,请计算这辆车的加速度,单位为 m/s/s

GPT-4o能够一步一步计算得到正确答案,但是Gemini只给了一个公式,连具体的一些步骤都没有。

第四题是考验两个模型的代码能力。对于这种简单的代码问题,两个模型都可以比较好的生成,但是Gemini生成的速度比GPT-4o要快很多

Q4:生成一个遍历目录的代码

第五题,长文本下找答案。这里我把小说《斗破苍穹》前10章的内容上传上去,文件大小在几十K,两个模型都能够找到正确的答案。

Q5:萧炎和谁退婚了

虽然Gemini宣称能够找2M的答案,但是我文件只要大于50k就处理不了。

同样的,GPT-4o对于这种长文本也上传不上去:

总结起来看,GPT-4o模型在常识问题、数学能力上都要比Gemini1.5 pro要强。但是Gemini模型胜在其回答速度,通常它仅仅需要几秒的时间就开始生成答案了,而GPT-4o在生成速度上要差一点。

3.多模态问答:GPT-4o完胜Gemini 1.5 pro

第一题主要是考察一下是否能够识别一些公众人物,GPT-4o能够很好的完成这个人物。

Q1:图中的人是谁

而Gemini不知道是不是考虑安全的问题,直接回答不能够识别图中人物,但感觉是把所有的人物识别都屏蔽掉了。这个就有点不太智能。

第二题,搞笑图片识别。

给了一张比较常见的梗图,其中GPT-4o首先分析了图片包含的三部分内容,最后得出结论:这张图用幽默的方式表达了许多创作者在创作过程中会遇到的常见困境。感觉GPT-4o真的读懂了这张图所表达自嘲的含义。

而对于Gemini 1.5 pro,它好像完全识别不出来这张图片的内容,也不能进行有效分析:

第三题,视频识别。目前GPT-4o已经支持视频上传并进行识别,而且支持你查询每一帧的内容

比如我这里让它分析一下第40帧的内容,GPT具体分析了一下舞蹈动作和场景内容。

4.总结

从整体来看,Gemini 1.5 pro模型的回答速度是明显比GPT-4o要快很多,并且官方宣称能实现2M的上下文token输入。

虽然Gemini 1.5 pro版本进行了全面的升级,但是从目前使用体验上来看还是比GPT-4o要差一点。如果要体验最新最好用的模型,无疑还是选择GPT-4o要好一点,毕竟同样的价格,肯定要选好一点的模型去使用。

以上就是本期的所有内容了,我是leo,我们下期再见~

0 人点赞