AGI的前奏曲,OpenAI发布o1模型

2024-10-08 20:58:40 浏览数 (1)

openai于今早凌晨发布全新的openAI o1模型,大的,终于来了!!!

好奇宝宝看到别人发了这个调侃,究竟是不是这样,待我一探究竟。

OpenAI o1概述

本次发布了OpenAI o1-preview版本,与gpt-4o模型不同的是,模型在问题做出响应之前花更多时间思考问题,就像一个人一样。

此次新模型更新,适用于博士生在物理、化学和生物学中,完成具有挑战性的基准任务。

除此之外,模型在数学和编码方面表现出色。在国际数学奥林匹克竞赛 (IMO) 的资格考试中,GPT-4o 仅正确解决了 13% 的问题,而推理模型得分为 83%。

作为预览版本,它不具备 ChatGPT 有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。后续将添加浏览、文件和图像上传以及其他功能。比如:

但是,对于复杂的推理任务来说很实用,代表了 AI 能力的新水平。例如,医疗保健研究人员可以使用它来注释细胞测序数据,物理学家可以使用它来生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

openAI所以将计数器重置回 1 并将此系列命名为 OpenAI o1。【模型名称的由来】

当然,除了预览版本,openai也发布了迷你版本:OpenAI o1-mini,一种更快、更便宜的推理模型,在编码方面特别有效。

o1-mini 比 o1-preview 便宜 80%,功能强大、更加经济高效,适用于需要推理但不需要广泛世界知识的应用中。

目前ChatGPT Plus 和 Team 用户可以访问 ChatGPT 中的 o1 模型。

o1-preview 和 o1-mini 都可以在模型选取器中手动选择,在启动时,o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条消息。

openAI比较了 GPT-4o、o1-mini 和 o1-preview 对单词推理问题的回答。 GPT-4o 没有正确回答,o1-mini 和 o1-preview 都正确回答,o1-mini 找到答案的速度大约快了 3-5 倍。

o1-mini 是一个较小的模型,针对预训练期间的 STEM 推理进行了优化。

OpenAI o1模型评估

OpenAI o1有多强???根据openAI官网数据,

  • OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89 个百分位。
  • 在美国数学奥林匹克竞赛 (AIME) 资格赛中跻身美国前 500 名学生之列。
  • 在物理、生物和化学问题的基准 (GPQA) 上超过了人类博士水平的准确性。

OpenAI o1的特殊之处在哪?

OpenAI o1经过了强化学习训练,可以执行复杂的推理。

O1 在回答之前会思考: 在响应用户之前,它可以产生一个很长的内部思维链。

在绝大多数的推理密集型任务中,o1 的性能明显优于 GPT-4o。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。实线条显示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)的性能。

人类偏好评估方面,O1-Preview 在数据分析、编码和数学等推理密集型类别中比 GPT-4O 更受欢迎。某些自然语言任务中,o1-preview 不是首选,它并不适合所有用例。

OpenAI o1模型背后的思维链

人类在回答困难问题之前可能会思考很长时间,o1 在尝试解决问题时也使用思维链。

通过强化学习,o1 学会不断优化思维链并改进它使用的策略,此过程显著提高了模型的推理能力。

  • 学会识别和纠正错误。
  • 学会了将棘手的步骤分解为更简单的步骤。
  • 学会了在当前方法不起作用时尝试不同的方法。

以一个健康科学题进行举例:

user:

代码语言:javascript复制
根据以下报告进行诊断:
 表:智力障碍、整体发育迟缓、大齿牙、三角形面、浓眉、手部异常、矮小、电机延迟、言语和语言发育迟缓、喂养困难、前发际线低、斜视、前倾鼻孔、球鼻
排除的表型:房室管缺损、卵圆孔未闭、室间隔缺损、肺动脉瓣狭窄、二叶式主动脉瓣、混合性听力障碍、小头畸形、Synophrys

answer:

思维链(o1-preview直出):

代码语言:javascript复制
所以从用户的指示来看,我需要 “根据下面的报告进行诊断”,其中包括:
表型:(列出的)
排除的表型:(另一个列表)

我需要根据所呈现的表型特征找出诊断,并考虑到某些特征被排除在外。

因此,目标是根据表型提供诊断。

我应该仔细分析列出的表型和排除的表型,并尝试将其与已知的综合征或病症相匹配。

首先,列出包含的表型:

 包括的表型:
......此处省略

那么,什么综合征的特征是包含的特征而缺乏排除的特征呢?

首先,是智力障碍和整体发育迟缓。

然后是面部特征:三角形脸、浓眉毛、前发际线低、斜视、前鼻孔、球状鼻子。

然后是大齿畸形(大牙)、手部异常、身材矮小、喂养困难、言语延迟、运动延迟。

我需要考虑一种与这些特征相匹配的遗传综合征。

面部特征值得注意的是三角形脸、浓密的眉毛、低前发际线、球状鼻子、前倾的鼻孔。

此外,大齿形肌(大牙)是一个显着特征。

手部异常,身材矮小。

三角形脸、浓眉毛、球鼻、大齿病、手部异常、身材矮小等的组合是否与任何已知的综合征相匹配?

好吧,让我们考虑一下 Cornelia de Lange 综合征。

但是 Cornelia de Lange 往往有 synophrys (uni-brow),这是一个排除 (不包括 synophrys)。此外,小头畸形是一种例外情况,在 Cornelia de Lange 中很常见。

Rubinstein-Taybi 综合征呢?但这通常有宽大的拇指和大脚趾,但也有面部特征,包括向下倾斜的睑裂、拱形眉毛、长睫毛和喙鼻。

此外,大齿牙是大牙齿。这与任何条件有关吗?

Macrodontia 是一种罕见的牙齿异常,包括大牙齿。

歌舞伎综合征的特征包括典型的面部特征,眉毛呈拱形,外侧三分之一稀疏(相似),但也包括身材矮小、智力障碍。

但他们通常有先天性心脏缺陷,这里不包括这些缺陷(排除了几种主要的心脏缺陷)。

9p三体综合征:三角形脸,大眉毛,小头畸形(但不包括小头畸形)。

大齿病与 KBG 综合征有关吗?KBG 综合征的特征是上中切牙大齿、身材矮小、智力障碍、特征性面部特征包括三角形脸、浓密的眉毛、球状鼻尖、前鼻孔前倾、前发际线低。

是的!KBG 综合征似乎很合适。

KBG 综合征的特征是:

......此处省略

所以这似乎很合适。

此外,KBG 综合征中的心脏异常不太常见,并且表型中不包含任何心脏异常。

所以诊断是 KBG 综合征。

输出结果:

代码语言:javascript复制
根据提供的表型特征和排除某些情况,最合适的诊断是 KBG 综合征。

 理由:

包括与 KBG 综合征匹配的表型:

智力障碍和全面发育迟缓:KBG 综合征的特征是轻度至中度智力障碍以及运动和言语领域的发育迟缓。

大齿牙:KBG 综合征的标志性特征之一是大牙,特别是上中切牙。

三角脸:由于额头宽阔和下巴尖,患有 KBG 的人通常呈三角形脸。

浓眉毛:浓密或浓密的眉毛是一种常见的面部特征。

手部异常:经常观察到骨骼异常,包括短指(短指)和弯曲指(弯曲的手指)。

身材矮小:许多人表现出生长迟缓,导致身材矮小。

运动发育迟缓和言语和语言延迟:发育迟缓很常见,会影响运动技能和言语。

喂养困难: 婴儿可能因肌张力减退或其他口腔运动问题而出现喂养困难。

低前发际线: 头部前部的低发际线是一个公认的特征。

斜视:报告了眼睛异常,包括斜视(交叉眼)。

前倾的鼻孔和球状鼻子:面部特征通常包括球状鼻尖和前倾(上翘)的鼻孔。

与 KBG 综合征一致的排除表型:

心脏异常:虽然一些患有 KBG 综合征的个体可能有心脏缺陷,但它们并不是一个一致的特征,并且列出的特定心脏异常(例如,房室管缺损、室间隔缺损)通常与 KBG 无关。

听力障碍和小头畸形:这些不是 KBG 综合征的主要特征,它们的排除与诊断一致。

滑稽:单眉或滑窜通常与 KBG 综合征无关;相比之下,浓密但独立的眉毛是特征。

 结论:
考虑到特征性面部特征 (三角形脸、浓眉毛、球鼻、前倾鼻孔、低前发际线)、大齿骨、手骨骼异常、身材矮小、发育迟缓以及没有排除的表型,KBG 综合征是最合适的诊断。

 引用:

KBG 综合征 概述: KBG 综合征是一种由 ANKRD11 基因突变引起的遗传性疾病 。它以常染色体显性遗传模式遗传。

临床特征: 该综合征的特点是上中切牙大齿、独特的面部特征、身材矮小、骨骼异常和发育迟缓。

 建议:

基因检测:可以通过对 ANKRD11 基因突变的分子遗传学检测来确认诊断。

多学科管理:患者受益于团队方法,包括儿科医生、遗传学家、牙医、言语治疗师和职业治疗师,以解决各种临床表现。

 诊断:KBG 综合征

OpenAI o1模型的应用前景

根据openAI给出的一些示例,在编码、数学、英、安全研究、药物治疗等方面已经初具雏形。

细想一下,未来的药物研发如果真正的使用上这种具备思考能力的大模型,是不是很多不治之症都会有治疗的方法?

如果安全研究方面有了更多的防范机制,有了AI的强力加入,是不是很多财产损失会可以避免?

如果更多的未知领域,人的能力所受限,让未来的AI帮我们去探索、去实践,会怎么样?

o1的未来,绝不会仅仅局限于现在,未来在更多能力将会发光发热。

未来,会有o2,甚至oN,当具备思考的o系列大模型加持在具身智能这个载体之上,新的时代即将来临。

这个时候的机器人具备了思维、行动能力,更多的语音、视频理解能力加持,更多的生产力被释放出来。

o只是一个开始,是最开始的0,从0-1,持续进步。

期待未来,期待AGI。

0 人点赞