2024年9月12日,OpenAI正式推出全新的推理模型系列——OpenAI o1。这款全新AI模型系列专为解决复杂问题而设计,能够在响应前花费更多时间进行思考,并通过深入推理应对比以往模型更具挑战性的科学、编程和数学问题。
1. 开发背景与首发版本
今天,OpenAI正式发布了这一系列的首款模型——o1-preview版本,用户可以通过ChatGPT和API体验这一预览版本。预计未来会定期进行更新和改进,与此同时,OpenAI还将发布相关的评估结果,帮助大家了解下一版本的开发进展。
2. 如何工作
OpenAI 通过延长模型的思考时间,使其更加精细地处理复杂任务。新模型通过不断优化推理过程,尝试不同的策略并识别错误。经过物理、化学、生物等挑战性基准任务的测试,结果表明,这些模型的表现已经接近博士研究生的水平。同时,在数学和编程领域也表现出色。在国际数学奥林匹克竞赛(IMO)中,GPT-4o模型只能正确解决13%的问题,而o1推理模型解决了83%的问题。在Codeforces编程竞赛中,其编程能力表现更是位列89百分位。有关技术细节请参考OpenAI的技术研究文章。
3. 安全性保障
为了确保模型的安全性,OpenAI 采用了一种全新的安全训练方法,使这些模型能够根据上下文推理并遵循安全和对齐原则。例如,在面对绕过安全规则的测试时,GPT-4o模型的表现得分为22(满分100),而o1-preview模型得分为84。OpenAI进一步加强了安全保障措施,包括与政府合作、进行严格的内部审核和测试,以及采用Preparedness Framework框架进行评估。详细信息可参考系统卡片和研究文章。
此外,OpenAI与美国和英国的AI安全研究机构达成了合作协议,向这些机构提供早期访问模型的权限。这将为未来模型的研究、评估和测试奠定基础,确保公开发布前的安全性和有效性。
4. 适用场景
OpenAI o1模型系列特别适合那些在科学、编程、数学等领域中面对复杂问题的人群。例如,o1可以帮助医疗研究人员标注细胞测序数据,物理学家生成复杂的量子光学公式,开发人员则可以用它来构建和执行多步工作流。
5. OpenAI o1-mini:高效推理的平价选择
为了满足开发人员对于成本效益的需求,OpenAI还发布了OpenAI o1-mini模型。这款小型模型在推理方面同样表现出色,尤其适合编程任务,并且相比o1-preview更加快速和经济。o1-mini的价格较低,为o1-preview的20%,是处理推理任务的理想选择,但不适用于涉及广泛世界知识的应用场景。
6. 如何使用OpenAI o1
从今天起,ChatGPT Plus和Team用户可以通过模型选择器手动选择o1-preview和o1-mini进行使用。每周的消息限制分别为30条和50条,OpenAI正在努力提升这些使用配额。此外,ChatGPT Enterprise和Edu用户将在下周获得访问权限。
开发者也可以通过API使用o1模型,符合API使用等级5的开发者现在就可以开始原型设计,初始速率限制为20 RPM。OpenAI正在测试后续的功能升级,如函数调用、流式传输和系统消息支持,相关指南请参考API文档。
未来,OpenAI还计划向所有ChatGPT免费用户开放o1-mini的使用权限。
7. 展望未来
这一系列模型目前仍处于早期预览阶段,随着模型的持续更新,OpenAI计划加入网页浏览、文件和图像上传等更多功能,进一步提升其实用性。同时,OpenAI还将继续开发和发布GPT系列的更新,同时扩展全新的OpenAI o1系列。
立即体验:
- 在ChatGPT Plus中试用o1-preview
- 通过API试用o1-mini
OpenAI最新的o1系列推理模型,其先进的推理能力和广泛的应用场景为科研人员和开发者提供了更高效的解决方案。如果你正在从事复杂任务,赶快体验这一革命性工具吧!