近日,谷歌公司发布了其最新的大语言模型Gemma 2,向全球研究人员和开发人员开放。新发布的Gemma 2模型有90亿参数(9B)和270亿参数(27B)两种版本。相比于第一代模型,Gemma 2在推理性能和效率方面有了显著提升,同时在安全性上也取得了重要进展。
性能卓越,效率更高
谷歌在新闻发布会上表示,Gemma 2-27B模型的性能媲美规模更大的主流模型,仅需一片英伟达H100 Tensor Core GPU或TPU主机即可实现高效推理,从而大幅降低部署成本。而Gemma 2-9B模型在性能上优于Llama 3 8B和其他同等规模的开源模型。此外,谷歌还计划在未来几个月内发布适用于智能手机的26亿参数(2.6B)Gemma 2模型。
Gemma 2重新设计了整体架构,实现了卓越的性能和推理效率。27B版本在同规模模型中性能最佳,甚至比两倍于其尺寸的模型更具竞争力。9B版本也在同类产品中处于领先地位。
经济实惠,易于部署
27B Gemma 2模型可以在单个谷歌云TPU主机、英伟达A100 80GB Tensor Core GPU或H100 Tensor Core GPU上以全精度高效运行推理,这使得人工智能的部署更加经济实惠和易于实现。谷歌还优化了Gemma 2以在各种硬件上高效运行,从强大的游戏笔记本电脑、高端台式机到基于云的设置。
开发者和研究人员可以在Google AI Studio中尝试全精度的Gemma 2,在CPU上使用Gemma.cpp的量化版本解锁本地性能,或通过Hugging Face Transformers在家用电脑上使用配备NVIDIA RTX或GeForce RTX的硬件进行尝试。
广泛兼容性和开放性
Gemma 2的设计旨在更容易集成到各种工作流程中。它兼容主要的AI框架,如Hugging Face Transformers,并通过Keras 3.0、vLLM、Gemma.cpp、Llama.cpp和Ollama的JAX、PyTorch和TensorFlow进行支持。此外,Gemma 2优化了英伟达TensorRT-LLM以在英伟达加速基础设施上运行或作为英伟达NIM推理微服务运行,用户可以使用Keras和Hugging Face进行微调。
从下个月起,谷歌云客户将能够在Vertex AI上轻松部署和管理Gemma 2。新的Gemma Cookbook提供了一系列实用示例和指南,帮助用户构建自己的应用程序并针对特定任务微调Gemma 2模型。
负责任的AI开发
谷歌提供了负责任构建和部署AI所需的资源,包括负责任的生成式AI工具包。最近开源的LLM Comparator帮助开发者和研究人员深入评估语言模型,用户可以使用配套的Python库与自己的模型和数据进行比较评估,并在应用程序中可视化结果。此外,谷歌正在积极致力于开源文本水印技术SynthID,用于Gemma模型。
在训练Gemma 2时,谷歌遵循内部安全流程,过滤训练前的数据,并针对一套全面的指标进行了严格测试和评估,以识别和减轻潜在的偏见和风险。谷歌还在与安全性和代表性危害相关的公共基准上公布了其结果。
总结
谷歌Gemma 2的发布反映了当前大模型研究的趋势,即探索用更轻量级、更实用的模型来实现更强的性能,并确保易部署,以更好地满足不同用户的需求。谷歌为开发者和研究人员提供了多种使用这些模型的途径,Gemma 2现已在Google AI Studio中使用,也可以从Kaggle和Hugging Face Models下载其模型权重。通过Gemma 2,谷歌证明了蒸馏是训练此类模型的有效方法,未来研究将继续优化模型的事实性、对抗性攻击的鲁棒性以及推理和一致性。