自 OpenAI 推出 ChatGPT 以来,国内外大模型迅速遍地开花,紧随其后的有百度文心一言、谷歌 Bard、阿里通义千问、讯飞星火、360智脑,还有后来腾讯的混元、昆仑万维的天工、华为的盘古、小米的小爱和 vivo的蓝心等。
手机厂商又在 GPT 的基础上融入了更多界面和功能控制上的交互,使得人工智能更加多元化。当然人工智能的扩展领域不仅仅局限于手机,GPT4 以后开放了联网功能并推出了众多插件,全方位覆盖衣食住行、社交、工作以及学习等日常所需,基本上能够扮演24小时私人助理的角色。
最近,谷歌又推出了最新一代深度学习大模型——Gemini。Gemini 不仅在多模态推理方面取得了巨大突破,而且在各项性能指标上超越了之前的SOTA模型,成为当今最具前瞻性和领先水平的AI模型之一。
据 Google 官方显示,从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在 32 个广泛使用的大型语言模型(LLM)研究和开发的学术基准测试中,超过了30个当前最先进的结果。
多模态 Gemini VS GPT-4
从 Google 放出的测试结果来看,在文本、常规推理、数学、代码等领域,Gemini 的表现几乎是全方位碾压了 OpenAI 的 GPT-4。
MMLU(大规模多任务语言理解)是测试 AI 模型知识和解决问题能力的最流行方式之一。Gemini Ultra 在该测试中以 90.0% 的准确率成为首个超越人类专家的模型,作为对比,GPT-4 只有 86.4% 的准确率。
新的 MMMU 基准测试包含了跨不同领域的多模态任务,对多模态大模型的检验程度更高,但超大杯 Gemini Ultra 同样取得了 59.4% 的高分。
多模态特性是 Gemini 花时间打磨的原生特性,Gemini 1.0 能同时识别和理解文本、图像、音频等多种信息,理解信息能力更强,在回答与复杂主题相关的问题也能游刃有余。在多模态 SOTA 的测试中,Gemini 图像、视频、音频的多模态测试水准再次遥遥领先。
Gemini的应用场景
Gemini 不仅在多模态任务上表现卓越,而且可以广泛应用于各种场景。
代码生成:
Gemini 可以根据用户的输入生成代码,实现了从任意类型的输入到任意类型输出的转换。
文本和图像生成:
Gemini 可以结合文本和图像生成多模态的输出。
视觉跨语言推理:
Gemini 可以在不同语言之间进行视觉推理。
当你随手画个鸭子,从曲线到鸭子成型,Gemini 都可以精准识别。给鸭子画条波浪线,它能理解你的言外之意,精准地指出鸭子在水中游泳的场景答案。
同时它还能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。
Gemini 1.0 提供三种版本:
- Gemini Ultra:适用于复杂任务的最强大的模型。
- Gemini Pro:适合大多数任务的中间版本。
- Gemini Nano:最小、最高效的模型,也应该在用户设备上运行。
据了解,Nano 还分为两个版本:一个有 18 亿个参数,一个有 32.5 亿个参数。 而对于 Pro 和 Ultra,Google 没有提供有关模型的任何信息。
谷歌用自己的基准测试来支持所承诺的性能飞跃。 因此,在大多数情况下,Ultra 变体的性能优于 GPT-4 或 GPT-4 Vision。 Gemini 不仅应该比它的前辈更强大,而且效率也明显更高。
手机大模型的新玩家
手机是新技术破圈的重要媒介,Gemini 想要大规模走进大众社会,Pixel 8 一定是其不二之选。
Pixel 8 Pro 作为第一款内置人工智能的手机,已经在高新技术民用化的道路上建立了良好的口碑,从已经上手 Pixel 8 Pro 的用户反馈看,Google 把 AI 和手机终端应用结合得相当不错。
在此基础上,Google 官宣中杯大模型 Gemini Nano 从今天开始,将在 Pixel 8 Pro 上正式运行。
结语
Gemini 的推出标志着深度学习领域的一次重大进展,为多模态推理能力的发展奠定了坚实基础。无论是对于科学研究、竞技编程、音频处理还是其他领域,Gemini 都展现出了强大的潜力和广泛的应用前景。
未经允许不得转载:Web前端开发资源网 » 谷歌推出新一代深度学习大模型Gemini
推荐阅读:
申请腾讯云免费SSL证书,实现网站https访问
WebStorm怎么设置实现自动编译less文件
CSS中的background属性与margin和padding内外边距的关系总结
html中引入调用另一个公用html模板文件的方法
Linux安装JDK Tomcat MySQL及发布项目教程