清华推出基座大模型 ChatGLM3,多模态性能直逼GPT-4V

2023-10-29 16:09:28 浏览数 (1)

大数据文摘出品

今年6月份清华系ChatGLM升级到第二代,当时在中文圈(中文C-Eval榜单)里拿下了“榜首”的好成绩。昨日,中国计算机大会(CNCC)上,ChatGLM再有突破,此次推出的ChatGLM3不仅在多模态层面性能直逼GPT-4V,也是国内首个具备代码交互能力的大模型产品(Code Interpreter)。

如上,中文图文理解能力测评,ChatGLM3可以回答各种类型的视觉问题,并且可以完成复杂的目标检测,以及打上标签,完成自动数据标注。

而“代码”功能目前已支持图像处理、数学计算、数据分析等使用场景。即代码增强模块Code Interpreter,可支持根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务。

代码绘制图形

处理数据生成图表

SQL代码分析

ChatGLM 3支持的Function Call意味着以前的开源小参数大模型都是不支持工具调用的,现在glm3的出现,小参数模型也支持了工具调用。这将助推加速模型本地化部署。

同时,ChatGLM 3支持网络搜索增强WebGLM,接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。如下:

据悉,ChatGLM3系列有三个版本:基础大语言模型ChatGLM3-6B-Base、对话调优大语言模型ChatGLM3-6B和长文本对话大语言模型ChatGLM3-6B-32K。这三个版本所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

并且,在8 个中英文典型数据集上的测评,ChatGLM3的表现堪称:10B以下最强基础大模型!

目前ChatGLM3的开源版本已经全部由官方发布在了国内wisemodel.cn开源社区。

地址:https://wisemodel.cn/models

ChatGLM3全新技术升级 更高性能更低成本

ChatGLM3拥有更丰富的训练数据和更优的训练方案,与ChatGLM2相比,MMLU提升36%、CEval提升33%、GSM8K提升179% 、BBH提升126%。

同时,ChatGLM3瞄向GPT-4V本次实现了若干全新功能的迭代升级,包括多模态理解能力的CogVLM-看图识语义,在10余个国际标准图文评测数据集上取得SOTA;代码增强模块Code Interpreter根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;网络搜索增强WebGLM-接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。ChatGLM3的语义能力与逻辑能力得到了极大的增强。

ChatGLM3还集成了自研的AgentTuning技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于ChatGLM2提升了1000% ;开启了国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。

此外,ChatGLM3本次推出可手机部署的端测模型ChatGLM3-1.5B和 ChatGLM3-3B,支持包括vivo、小米、三星在内的多款手机以及车载平台,甚至支持移动平台上CPU芯片的推理,速度可达20 tokens/s。精度方面1.5B和3B模型在公开benchmark上与ChatGLM2-6B模型性能接近。

基于最新的高效动态推理和显存优化技术,ChatGLM3当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及Hugging Face TGI的最新版本,推理速度提升了2-3倍,推理成本降低一倍,每千tokens仅0.5分,成本最低。

适配国产芯片

随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。而近期连用来打游戏的RTX4090显卡都被禁售,更别说用来训练AI的A100等硬件了。因此AI算力国产化适配势在必行。

自 2022 年初,ChatGLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预训练和推理,截至目前已支持 10 余种国产硬件生态,包括昇腾、神威超算、海光 DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。通过与国产芯片企业的联合创新,ChatGLM 系列模型性能不断优化,国产硬件生态也得到了大模型国产化的闭环。

0 人点赞