终于放榜了。
刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年8月报告》:
腾讯混元大模型凭借多个任务上的出色表现,总得分居国内大模型第一名。
SuperCLUE本次8月报告聚焦大模型的通用能力测评,就像一场考试,分别考理科、文科等基础科目以及附加题“Hard科”:
- 理科能力:包括计算、逻辑推理和代码能力。
- 文科能力:包括知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大维度。
- Hard能力:侧重精确指令遵循以及复杂任务高阶推理。
11个能力项测评中,腾讯混元在8项核心任务上都排名国内第一。在理科、文科不仅取得第一名,得分也超过了ChatGPT-4o。在Hard能力上,是国内唯一超过70分的大模型。
其实,腾讯混元一直在向“优秀生”GPT看齐。凭借本次测评的优秀表现,将国内外大模型差距从2023年5月的 30.12% 的缩小至 2024 年8月的1.29%,总分上仅有 1 分左右。
当然,一次“考试”只是阶段性的成绩,腾讯混元接下来还会继续好好学习,争当优秀。
腾讯混元大模型在腾讯云上提供了多种尺寸的模型服务,通过API、专属模型、精调模型等接入和使用方式面向企业及个人开发者全量开放。
对了,9月5日(也就是后天)就是2024腾讯全球数字生态大会了,届时还会有更强的腾讯混元大模型版本与大家见面,敬请期待!