引言:
GPT-4是OpenAI GPT系列研究最新里程碑,GPT-4接受图像和文本输入, 是一个大型多模态模型(接受图像和文本输入,输出为文本)。本文结合OpenAI官方Blog、技术报告微软Copilot发布会内容,详细介绍GPT4的接入方式、升级能力以及接入微软Office全家桶Copilit产品应用。
1、GPT4简介
GPT-4是OpenAI GPT系列研究最新的里程碑,GPT-4接受图像和文本输入, 是一个大型多模态模型(接受图像和文本输入,输出为文本)。
在日常对话中 GPT-4 相比上一代语言模型可能差别感知不大,但当任务的足够复杂差异就会出现。在各种专业和学术基准上表现出人类水平。例如它通过模拟律师考试,分数在应试者的前 10% 左右,相比之下GPT-3.5 的得分在倒数 10% 左右。
GPT-4模型22年8月训练初版,OpenAI后续花了 6 个月的时间利用对抗性测试程序和 ChatGPT 中积累的经验迭代调整,模型尽管远非完美,在许多现实世界场景中的能力不如人类,但该模型“比以往任何时候都更具创造性和协作性”,并且“可以更准确地解决难题”。
Microsoft 365 Copilot的发布会,宣布GPT4 全面入住Office家族,此次微软对办公场景的能力革新,把GPT-4和Office做了一个超强联合,极大提高生产力同时也让我们看到了GPT4更多的可能性。
2、GPT4接入方式
2.1、ChatGPT Plus
通过 ChatGPT Plus(OpenAI 每月 20 美元的 ChatGPT 订阅)向公众提供。ChatGPT Plus 订阅者将在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。
2.2、NewBing入口
NewBing正在GPT-4上运行,是OpenAI为Bing搜索定制的,可以通过NewBing入口进行体验。
2.3、GPT-4 API接入
GPT-4 API提供给一些开发人员体验。需要加入API候选名单GPT-4 API waitlist,加入后提示。获得访问权限后,您可以向 gpt-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)定价为每 1k 个prompt token 0.03 美元和每 1k 个生成token 0.06 美元。默认速率限制为每分钟 40k 个token和每分钟 200 个请求。
3、GPT4应用产品Copilot
Microsoft Dynamics 365 Copilot的发布会,宣布GPT4 全面入住Office家族,Word、PPT、Excel、OneNote、Outlook、Teams、Microsoft Viva、Power Platform等所有这些办公软件都会得到GPT-4的加持。微软构建的这个Microsoft 365 Copilot全系统,把GPT-4和 Word、Excel、PPT等办公软件APPs,Microsoft Graph做了一个超强联合,通过Copilot通用的界面和自然语言,就能轻松玩转AI工具,所有软件互通极大提高生产力。
3.1、GPT4如何结合Office系统
MicroSoft 365 Copilot接入微软这个办公生态系统中,在这个系统中不同格式的文件和不同展现形式的数据之间进行稳定的交互需要一个强大的技术系统。根据官方透露系统主要包含如下图所示部分:微软365应用程序(word、excel等)、用户个人数据(MicroSoft Graph)、语言大模型(GPT4)和AI中枢系统(Copilot)。
流程分为以下四步,第一步如下图所示:
用户在使用Apps过程中输入语言指令Prompt,先经过Copilot中枢转预处理为计算机可理解的指令,再与用户Word、Excel等各类格式的文件资料进行交互。
第二步,如下图所示,Copilot 要求 Microsoft Graph 提供输入和上下文,然后AI中枢系统修改Prompt请求后,发送给大语言模型 GPT-4。
第三步,如下图所示,由语言大模型理解人类的需求,返回对应的输出给AI中枢系统Copilot,Copilot会请求Microsoft Graph 再次检查其安全性和合规性。
第四步,如下图所示,由上一步 Microsoft Graph检查完成的数据,通过Copilot中枢,自动调用用户使用的Office软件相应指令,输出内容完成用户需求。
3.2、AI加持下的Office全家桶
Word:自由编辑草稿、方案,一键搞定
让你告别思路堵塞效率倍增,轻松起草一个指定风格(严肃、欢快等)的文案,自由指令操作要求编辑修改,还可以生成配图报告,还可以调用其他工具比如OneNote等,让Word更具创造力。
Excel:一句话自动分析、生成图表
告别函数,一句话让Excel帮你分析数据(创建 SWOT 分析)、生成表格(各种数据透视表)、画图(趋势图)等,让你的Excel更具分析力。
PowerPoint:轻松文本生成特定风格PPT
Copilot可以对话式输入命令,选择风格生车给你PPT,也可以直接有Word 文件创建一个PowerPoint 演示文稿,创建的文稿可以自由的编辑,替换页数、文字、布局、以及图片,让你的PPT更具表现力。
Outlook:写邮件、管理邮箱信息
Copilot只需要你给一个开头,发一个指令,就可以可以帮你写邮件,根据自定义风格场景,自动补全及文字润色。同时还可以帮助管理邮件分类、回复、标记等操作,让你的Outlook 中更具生产力。
Teams:项目总结、会议提率
Copilot可以在Teams会议上实时总结关键讨论内容,聊天过程自动记录提出问题参考答案,可以根据指令分析优势等供讨论决策。以及一些信息自动同步、项目更新等都轻松搞定,大大提升会议效率,使Teams 更具协同性。
BusinessChat:全新的智能服务体验
Business Chat以为称为商务助理机器人,汇集了用户的所有数据和应用程序,包含word、PPT、邮件、日历、笔记和联系人的数据,可以根据指令进行汇总和总结。例如,总结昨晚与客户的聊天记录、电子邮件和文档,安排会议时间表等。因为有着所有数据,可以交互的方式让Business Chat执行任务。
4、GPT4有哪些能力提升
4.1、解决更复杂的任务
在日常对话中GPT-3.5 和 GPT-4 之间的可能看不出差别,当任务的复杂性达到足够的阈值时,差异就会出现。GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
4.1.1、模拟考试表现出人类水平
为了比较模型之间的区别,在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。模型没有针对这些考试进行专门培训,模在训练期间可能看到了考试中的少数问题,但结果仍然很具有代表性。在各种专业和学术基准上表现出人类水平。例如它通过模拟律师考试,分数在应试者的前 10% 左右,相比之下GPT-3.5 的得分在倒数 10% 左右。下面为各种考试中GPT3.5、没有视觉信息GPT4、GPT4表现,我们可以看到GPT4均显著优于GPT3.5。
4.1.2、传统基准测试依然优势明显
为了更加充分评估,在机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,详细指标如下:
4.1.3、多语言及小语种不在话下
现有ML基准测试都是大多是英语,为了评估GPT4其他语言中的功能,使用Azure Translate将MMLU基准测试(包含14,000个多项选择题,涉及57个科目)翻译为各种语言。在测试的26种语言中,有24种语言的GPT-4性能优于英语GPT-3.5和其他LLM(Chinchilla、PaLM),包括拉脱维亚语、威尔士语和斯瓦希里语等小语种的语言:
4.2、读图能力及理解幽默
GPT-4 可以接受文本和图像输入,允许用户指定任何视觉或语言任务,包括带有文本和照片的文档、图表或屏幕截图等,GPT-4 展示了与纯文本输入类似的功能,生成文本输出。官网提到了还可以通过为纯文本语言模型开发的测试时技术(包括few-shot和prompt)来增强。图像输入仍然是处于研究阶段没有公开,所以提供了几个官方的案例:
a)对搞笑图片内容的理解,能get到人类的幽默。
b)图标推理能力,可以根据图片中的图表信息进行推理得出结论
c)École Polytechnique 法语物理考试题
d)根据图像内容,可以理解图像中不合理的地方,具备人常识的认知。
e)看纸质论文总结摘要
f ) 理解人类幽默,看梗图
g )看懂漫画能力,理解漫画讽刺的点。
提供的七个案例,从不同维度展示了加入了视觉信号之后GPT4能力,但是由于图片输入还没有放开体验,官方补充了一些学术常用的一些数据集基准测试来评估GPT4的图片理解能力。如下图所示我们可以看到与当前的SOTA模型相比有很大的竞争力。
4.3、支持系统指令更可控
OpenAI 知道用户更希望 ChatGPT 能够 Cosplay,为了提搞用户体验允许以系统消息方式为API 用户在一定范围内定制化实现不同的体验。过去ChatGPT的回复风格总是冗长而平淡,这是因为系统规定了ChatGPT就是一个语言模型,知识截止到21年9月,限制了ChatGPT多样的风格。GPT-4还开放了一个修改“系统提示”使用功能,可以通过与用户交互来控制模型输出的风格和任务。
a)通过系统消息指定苏格拉底风格,GPT4具备了导师的能力,提出正确的问题,一步一步引导学生给出答案,帮助学生独立思考。
b)系统消息定制回复的风格和个性,GPT4能够更好的控制保持回复的风格和个性,不容易被用户引导篡改。
c)系统消息指定回复的格式,定制化借口回复JSON格式响应。
4.4、更长的上下文输入
GPT-4支持的上下文token数量分别是8K和32K,折算到字最长输入长度为25000字,是ChatGPT3000字的8倍,限制的增加也大大扩展了GPT-4的实用性。发布会直播上OpenAI总裁Gregman现场表演了一波GPT-4给代码修Bug,直接把1万字的文档给GPT-4,再最后附上出现的问题,在几秒钟内瞬间得到解决办法。
5、GPT4目前的局限性
5.1、仍存在幻觉、推理错误
幻觉、推理错误等问题一直是大模型面临的挑战,但 GPT-4 相对于以前的模型显著减少幻觉,如下图所示,在九类内部对抗性设计的事实评估中, GPT-4(绿色)与前三个 ChatGPT 版本进行了比较,所有主题都有显着的提高。准确度为 1.0 意味着模型的答案被判断为与评估中所有问题的人类理想回答一致。在整体对抗性真实性评估中GPT-4 的得分比最新的GPT-3.5 高 40%。
在 TruthfulQA 基准数据集上,测试了模型把事实和错误陈述区分开的能力,实验结果如下,GPT-4 此任务上比 GPT-3.5 略好,但经过 RLHF 后训练之后,GPT4效果更佳显著。
5.2、后训练带来的校准损失
GPT-4 依然存在回到错误的时候依然坚持自信,在可能出错时不注意再次确认。模型的这种特征可能与训练策略有关,官方对比了MMLU 子集上上基础预训练模型和PPO模型,左图预训练 GPT-4 模型的校准图,该模型对其预测的置信度与正确概率相匹配,虚线对角线代表完美的校准。右图训练后 PPO GPT-4 模型的校准图,训练后对校准造成很大的影响。
5.3、知识时间局限与偏见
除了上面提到的局限性,GPT4依然可能输出带有偏见的内容,如何构建AI 系统具有合理的默认行为,以反映广泛的用户价值观。如何在广泛的领域提供用于进行定制是需要解决的问题。与ChatGPT一样,GPT-4 数据集局现在2021 年 9 月,对之后的发生的问题可能错误。同时GPT4具备跨多个领域知识的能力,但一些简单的推理依然会犯错,有时还会清新用户一些明显虚假的陈述。除了简单的问题在一些人类遇到的难题上GPT4依然无法很好的解答,例如在它生成的代码中引入安全漏洞。
6、GPT4风险及缓解措施
除了与之前ChatGPT模型类似的风险,例如生成有害建议、错误代码或不准确信息。GPT-4 因为引入了图片信息,还会引入新的风险。GPT4确保训练开始就更安全、更一致做了多个方面工作:
6.1、数据选择和过滤
引入了更多人工反馈,包括由 ChatGPT 用户提交的反馈,为了防止模型拒绝有效请求,收集了多样化的数据集(例如标记的生产数据、人类红队、模型生成的提示),以改进 GPT-4 的行为。
6.2、专家参与和评估
50 多位覆盖多个领域专家对模型进行对抗性测试,在需要专业知识进行评估的高风险领域测试模型行为,使得模型获得了早期反馈。专家反馈和数据改进模型,例如收集了额外的数据来提高拒绝有关如何合成危险化学品的请求的能力。
6.3、模型安全性改进
将以往现实应用中的经验引入GPT-4 的安全研究和监控中。GPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出。奖励模型是GPT-4 零样本分类器,根据安全相关提示判断安全边界和完成方式。GPT-4 与 GPT-3.5 相比显着改善了许多安全特性。如下图所示禁止和敏感内容的错误率,模型针对禁止内容请求的倾向降低了 82%,并对敏感内容请求的符合安全监管提高了 29% 。
模型级干预增加了引发不良行为的难度,但仍然存在生成违反我们内容的“越狱” 。目前措施是用安全技术(如监控滥用)来补充这些限制。与此同时通过与外部研究人员合作,来改进理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。
7、GPT4训练流程
官方资料没有讲模型参数和数据规模,没有讲任何技术原理。简单讲了一下GPT-4 基础模型与GPT系列模型一致,使用公开可用的数据(例如互联网数据)以及我们已获得许可的数据进行训练。语料包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。模型的能力主要来自预训练过程,RLHF 不会提高模型测试的考试成绩,有时实际上会降低考试成绩。模型一些意图对齐及风格转变等来自于RLHF 和工程设计。
GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。为了适配大模型微调进行了底层优化,在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,使用相同方法训练但使用 10,000 倍更少计算量的模型进行推断,准确预测了 GPT-4 在我们内部代码库的最终损失:
准确地预测我们在训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标。例如从计算量减少 1,000 倍的模型中推断 HumanEval 数据集的一个子集的通过率:
有些能力难以预测,例如Inverse Scaling Prize 是一项竞赛,目标是寻找一个随着模型计算量的增加而变得更糟的指标,hindsight neglect 任务是赢家之一,这个任务此任务测试语言模型是否能够根据预期值评估赌注是否值得。例如
问题:迈克尔可以选择玩一个游戏,迈克尔有 91% 的机会输掉 900 美元,有 9% 的机会赚到 5 美元。Michael 玩了这个游戏,最后输了 900 美元。迈克尔做出了正确的决定吗?选择 Y 或 N。
答案:否
其他大模型在这个任务上都表现不佳,但是GPT-4 扭转了趋势:
8、OpenAI Evals
开源OpenAI Evals软件框架,用于创建和运行基准测试以自动评估 GPT-4 等模型能。OpenAI使用 Evals 来指导模型的开发(识别缺点和防止回归),用户可以应用Evals来跟踪模型和产品版本的性能。例如,Stripe 使用 Evals 来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性。提供包括“模型分级评估”模板等多种模版,OpenAI期望Evals成为共享和众包基准测试的工具,邀请用户反馈模型的缺点,帮助进一步改进模型。
9、总结
总结一下GPT-4几个关键点:
- 智能程度大幅跃迁,可以解决更难的问题,更擅长考高分,有些考试达到国际奥赛金奖水平。可以接受图片输入,看图能力更强。漫画论文不在话下。
- 相比历史更创造性和可控,创造性包括编歌曲、写剧本、学习用户风格相比历史模型都有提高 。 还可以通过系统消息定制化模型回复风格,这个在垂直行业场景非常适用。
- 模型输入更长,可以处理文字输入长度增加到3.2万个token,约25000字文本。
- 模型参数、数据集、技术原理等不再公开,只公开一个评测框架。大模型的竞争越来越大了。
- 微软Copilot的应用,革新了办公场景,也让GPT4商业化前景更加乐观。
根据官方提到去年8月模型就训练出来,后续都在做一些调优,大概率基础模型方案是统一了文本和图片模态输入到GPT3.5结构,再按照ChatGPT的训练流程去加入人类反馈。
参考:
GPT-4
https://cdn.openai.com/papers/gpt-4.pdf
https://www.youtube.com/watch?v=Bf-dbS9CcRU&t=0s
https://www.youtube.com/live/outcGtbnMuQ?feature=share
Confirmed: the new Bing runs on OpenAI’s GPT-4 | Bing Search Blog
[2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
How should AI systems behave, and who should decide?
https://platform.openai.com/docs/usage-policies
GitHub - openai/evals: Evals is a framework for evaluating OpenAI models and an open-source registry of benchmarks.
evals/logic.yaml at main · openai/evals · GitHub
Usage policies
[2211.02011] Inverse scaling can become U-shaped