前言
混元大模型由腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
腾讯混元大模型是由腾讯全链路自研的实用级大模型,拥有超千亿参数规模、预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。腾讯已将大模型技术深度应用到多个业务场景中,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等在内的超百个业务和产品,已经接入腾讯混元大模型测试。
腾讯混元大模型可为开发者提供代码生成与提示、代码审查、框架与库推荐、代码实例、交流与反馈等辅助工作。
多轮对话
- 多轮对话:具备上下文理解和长文记忆能力,流畅完成各专业领域的多轮问答
- 内容创作:支持文学创作、文本摘要、角色扮演能力,流畅、规范、中立、客观
- 逻辑推理:准确理解用户意图,基于输入数据或信息进行推理、分析
- 知识增强:有效解决事实性、时效性问题,提升内容生成效果
- 多模态:支持文字生成图像能力,输入指令即可将奇思妙想变成图画(即将上线)
官方介绍
官方地址:https://hunyuan.tencent.com
步入正题
最近火爆全网的聊天机器人, ChatGPT,想必大家都有所耳闻, 而它最大的竞争对手就是来自 Google 的聊天机器人 Bard,今天我们就来对比一下这两个聊天机器人与混元大模型的表现。
本文将会从以下几个方面进行对比来一场大 PK,让 ChatGPT Bard 与混元大模型一决高下,我会问一系列问题,从简单到复杂,然后分别让 ChatGPT Bard 与混元大模型来回答,然后对比它们的回答,最后我会给出我的评价,看谁回答的更精彩,更准确。
另外呢,因为我是个程序员嘛,我自然会关注混元大模型的编程能力,所以我会深入考察混元大模型的编程能力与编程相关的问题,希望这篇文章能够给大家带来一些帮助。当然我也会对混元大模型初体验一个总结。好了我们来看,PK 之前我先说明一下,腾讯混元大模型还是处于测试阶段,我拿到了测试资格,所以才能够写这篇文章,如果你也想要体验混元大模型,可以去官网申请。
Round 1
首先来一道热身体,我要问它们的问题是:BNTang是谁
我们先看看 ChatGPT4.0 的回答:
这个回答有点短,可以看到在回答过后是没有自我纠正的,而且回答的也不是很准确,因为我问的是 BNTang 是谁,而它回答的是 BNTang 是什么,这个回答有点像是在回答一个问题,而不是在回答一个人,所以这个回答我给 6 分。
好了,接下来我们看看 Bard 的回答:
这种总结,感觉明显比 ChatGPT4.0 的答案要高级多了,不过 Bard 答案下面有一个刷新的按钮,可以给出其他版本的答案,我这里就不一一展示了。
这个回答比 ChatGPT4.0 的回答要好一些,因为它回答的是 BNTang 是谁,而且它还自我纠正了一下,所以这个回答我给 8 分。
好了,接下来我们看看混元大模型, 本次重点关注的是混元大模型给出的表现,直接展示混元大模型的回答:
通过上图可以看出混元大模型给出了 很抱歉,我无法回答这个问题。请提供更多的上下文信息。
Round 2
为了增加问题的难度,我不会用 Java,Python 这种主流的语言的代码,而是用一门小众语言,我还会故意把代码改的晦涩难懂,让它们来读懂代码,然后看看 ChatGPT Brad 与混元大模型在我设置的障碍下,能不能正确的回答出代码在干嘛,我准备用 Haskell 这门语言实现 quick sort 快速排序算法,整个算法 5 行代码,函数的名字是 qsort, 通过 divide and conquer 分治法,把输入分成左右两半,左边一半都小于 p 这个数字,右边一半都大于等于 p, 然后两边分别递归调用 qsort,最后把结果整合到一起,就排好了序。
好了提问之前,我要先把代码改的更晦涩,最简单的改法,就是把代码中能起到提示的作用的名字,比如 qsort,lesser,greater 这些:
通通替换成毫无意义的名称,比如, 把 qsort 换成 f,把 lesser 换成 a,把 greater 换成 b:
替换后,代码就长这样,如下图所示:
现在的代码变得更难看懂了,我们来看看 ChatGPT4.0,后续的问答都是中文来提问,我们先看看 ChatGPT4.0 的回答:
哎呦,这个回答非常符合我的预期,就感觉它真的理解了这段代码,再来看看 Bard 的回答:
这里 Bard 的回答,篇幅比 Bing 要长的很多,但如果你仔细看他的第一句解释你就会发现,它把这段代码理解错了,它根本没有识别出这是个排序算法,而是把它理解成了给定一个 List 把这个 List 里大于等于某个值的数字都找出来,好了,接下来我们看看混元大模型的回答:
很显然,混元大模型的回答也是与 Bard 一样没有复合我的预期结果,它也没有识别出这是个排序算法,而是把它理解成了给定一个 List 把这个 List 里大于等于某个值的数字都找出来。
所以读代码的能力,ChatGPT4.0 貌似比 Bard 与混元大模型要强一些,差了一大截。
比完了读代码的能力,接下来我们来看看它们的编程能力。
Round 3
这道题是我打算给他们一个数列,数列的内容分别是 0,1,1,2,3,5,8,13,21,...
(这是一个 Fibonacci 数列),然后让它们写代码计算出数列里第 N 个数字的值,所以这个问题首先考察的是它们能不能识别出这是一个 Fibonacci 数列,然后再考察它们能不能写出 efficient 的代码,这里的关键点是 efficient 高效,也就是,你不要给我写一个指数级别的暴力求解算法,不知道它们能不能领会我的这个意图,好了,我们先来看看 ChatGPT4.0 的回答:
我问的是 给定 0,1,1,2,3,5,8,13,21,... 写一个程序计算第n个数
:
从给出的代码来看,它使用的是线性时间复杂度的算法,时间复杂度是 O(N),空间复杂度是 O(1), 答得不错哦~
接下来我们看看 Bard 的回答:
Bard 的回答结果,也识别出了这是一个 Fibonacci 数列,但是它给出的代码是指数级别的暴力求解算法,非常低效,这正是我最不想看到的写法,所以呢,Bard 其实并没有理解 efficient 的含义。
最后我们看看混元大模型的回答:
腾讯混元大模型的回答结果,也识别出了这是一个 Fibonacci 数列,代码的效果时间复杂度与空间复杂度也达到了了我的预期给出了我满意的代码。
最后
经过这几轮对比的 PK 情况来看,写代码这个环节,ChatGPT4.0 与混元大模型的表现要比 Bard 要好,但是在读代码的能力上,混元大模型与Bard的表现要比 ChatGPT4.0 要差。
当然腾讯的混元大模型仍热在快速进化中,再过一段时间,两者差距是缩小还是继续扩大,我们拭目以待。
在这里我也建议大家可以去官网申请体验一下混元大模型,多动手去玩一下,从你们专业视角,去亲自对比 ChatGPT4.0 Bard 与混元大模型的表现,然后给出你们的评价,这样才能更好的帮助腾讯混元大模型的进化。
我是 BNTang,再见~。