编译 | 褚杏娟、凌敏、核子可乐
北京时间 11 月 7 日凌晨 02:00,OpenAI 的首次 DevDay 开发者日活动正式开始。Sam Altman 用了 45 分钟的时间发布了多款新产品。微软 CEO Satya Nadella 还亲自去现场参与了这次发布。
此次,OpenAI 分享了数十项新增功能和改进,并降低了平台上多种服务的价格。具体包括:
- 新的 GPT-4 Turbo 模型,功能更强大、价格更低廉且支持 128K 上下文窗口。
- 新的 Assistants API,允许开发人员轻松构建具有目标且能够调用模型及工具的 AI 助手应用。
- 平台提供新的多模态功能,包括视觉、图像创建(DALL-E 3)及文本转语音(TTS)等。
此外,OpenAI 还推出了 ChatGPT 的自定义版本 GPTs。OpenAI 表示,GPTs 是一种新方式,任何人都无需编码就可以创建 ChatGPT 的定制版本,以便其在日常生活、特定任务、工作或家庭中更有帮助,并与其他人分享该创作。比如,GPTs 能协助用户掌握任何桌面游戏的规则、辅助孩子学习数学或者设计个性贴纸。
目前,ChatGPT Plus 和 Enterprise 用户已经能够尝试包括 Canva 和 Zapier AI Actions 在内的 GPTs 示例。
本月晚些时候,OpenAI 将推出 GPT Store,主要用于分享用户构建的自定义 GPT 助手,开发者可以借此赚钱,使用自己作品的用户数越多收入越高。
Sam Altman 展示 GPT Store
对于此次大会,网友 altoidsjedi 难掩兴奋:“对于我们当地的 LLM 人员来说,鉴于 Orca / Dolphin / Airboros 等合成的、GPT-4 生成的数据集的成功(特别是在删除拒绝响应之后),这些新的 OpenAI API 工具将不可避免地导致开源合成数据集的增加充满了使用视觉、检索、函数调用等的优秀示例。我们可以使用数据集来微调 / 教学 / 提炼到我们的本地人工智能模型中以模拟相同的行为!这是双赢。”网友 Independent_Key1940 则一阵见血地指出,“降低成本才是当前最应该做的事情,这能在很大程度上改变现状。”
此次公布的各项新功能,将于太平洋时间 11 月 6 日下午一点起向 OpenAI 客户开放。下面,我们具体看下 OpenAI 这次到底为我们带了哪些“惊喜”。
功能增强了,价格低了
GPT-4 Turbo 迎来 128K 上下文
OpenAI 于今年 3 月发布了 GPT-4 的首个版本,并于 7 月开放 GPT-4 的通用版。此次,OpenAI 又带来下一代 GPT-4 Turbo 的预览版本。这也是这次颇受关注的更新之一。
GPT-4 Turbo 功能更强,学习内容截止于 2023 年 4 月。它拥有 128k 上下文窗口,因此能够在单一提示词中容纳相当于 300 多页文本的内容。据悉,与 GPT-4 相比,GPT-4 Turbo 的输入 token 成本只相当于三分之一、输出 token 成本则为二分之一。
GPT-4 Turbo 现通过 API 中的 gpt-4-1106-preview 向所有付费开发者开放,OpenAI 计划将在未来几周内发布稳定的生产就绪模型。
除了 GPT-4 Turbo 之外,OpenAI 还为 GPT-3.5 Turbo 发布了新的版本,默认支持 16k 上下文窗口。新的 3.5 Turbo 将支持改进的指令跟踪、JSON 模式与并行函数调用。OpenAI 的内部评估显示,格式遵循任务(例如生成 JSON、XML 和 YAML)的效果提高了 38%。开发人员可以调用 API 中的 gpt-3.5-turbo-1106 来访问这个新模型。使用 gpt-3.5-turbo 名称的应用程序将从 12 月 11 日起自动升级至该新模型。
此外,OpenAI 还在函数调用更新、改进指令遵循与 JSON 模式、可重复输出与对数概率方面做了改进。OpenAI 还计划在未来几周推出另一项功能,用于为 GPT-4 Turbo 和 GPT-3.5 Turbo 返回潜在输出标记的对数概率,这项功能将在搜索体验的自动补全等功能中发挥重要作用。
发布 Assistants API
OpenAI 此次发布了 Assistants API,这是帮助开发人员在应用程序当中构建智能体功能的第一步。
助手智能体是一种专用型 AI,提供特定指令和额外的专业知识,并可调用模型及工具以执行任务。新的 Assistants API 提供 Code Interpreter 代码解释器、Retrieval 检索以及函数调用等新功能,可以处理以往用户必须新手完成的大量繁重工作,帮助开发者腾出精力构建高质量的 AI 应用程序。
此 API 在设计上充分强调灵活性,用例范围包括基于自然语言的数据分析应用、编码助手、AI 驱动的假期规划器、语音控制 DJ、智能视觉画布等等。Assistants API 与 OpenAI 的新 GPT 产品基于相同的功能基础,包括 Code Interpreter、Retrieval 和函数调用等自定义指令和工具。
该 API 还引入一项关键变化,即持久且无限长线程,允许开发人员将线程状态管理移交给 OpenAI 以解决上下文窗口约束。使用 Assistants API,用户只需要将每条新消息都添加至现有线程即可。
Assistants 还可根据需要调用新工具,包括:
- Code Interpreter:在沙盒执行环境中编写并运行 Python 代码,可以生成图形和图表,并处理包含不同数据和格式的文件。它允许 AI 助手以迭代方式运行代码,从而解决极具挑战的编码和数学问题。
- Retrieval:利用模型以外的知识来增强助手,例如专有领域数据、产品信息或用户提供的文档。如此一来,大家无需对文档嵌入进行计算和存储,也无需使用分块和搜索算法。
- Assistants API 将根据 OpenAI 在 ChatGPT 中构建知识检索的经验,对各类常用检索方法进行优化。函数调用:使助手能够调用定义的函数,并将函数响应合并至消息当中。
与家族中的其他产品一样,OpenAI 表示,永远不会将用户上传至 API 的数据和文件用于训练自有模型,开发人员还可以根据需求随时删除数据。Assistants API 目前处于 beta 测试阶段,且从即日起面向全体开发者开放。
API 中的新模式
现在,GPT-4 Turbo 可接收图像作为 Chat Completions 聊天补全 API 中的输入,从而实现标题生成、真实图像分析、阅读带图形的文档等用途。例如,BeMyEyes 就使用这项技术帮助盲人或弱视人群完成日常任务,例如识别产品或浏览商店。开发人员可以通过 API 中的 gpt-4-vision-preview 来访问此项功能。
OpenAI 还计划为 GPT-4 Turbo 主模型提供视觉支持,这项新功能将被纳入稳定版本,而计费标准则由输入的图像大小决定。例如,将一张 1080 x 1080 像素的图像上传至 GPT-4 Turbo 的费用为 0.00765 美元。
此外,开发人员可以通过 Images API 将 DALL-E 3 直接集成至自己的应用程序和产品当中,具体方式就是用 dall-e-3 指定模型。据悉,Snap、可口可乐和 Shutterstock 等公司已经使用 DALL-E 3 以编程方式为客户及活动生成图像和设计。
与之前版本的 DALL-E 类似,该 API 中同样内置有审核功能,可帮助开发人员保护自身免遭滥用。OpenAI 还提供不同的格式和质量选项,生成单张图像的起步价格为 0.04 美元。
开发人员还可以通过文本转语音 API 将普通文本转换为与真人质量相当的语音。新的 TTS 模型提供六种预设声音以及两种模型变体:tts-1 和 tts-1-hd。tts 针对实时用例进行了优化,而 tts-1-hd 则主要面向更高的质量需求。每输入 1000 字符的起步价格为 0.015 美元。
模型定制
OpenAI 表示,正在开发一款用于 GPT_4 微调的实验性访问程序。初步结果表明,与 GPT-3.5 微调实现的效果相比,GPT-4 微调需要更大的工作量才能对基础模型做出有意义的改进。随着 GPT-4 微调质量与安全性的提升,已经熟悉 GPT-3.5 微调开发人员现可尝试在微调控制台中操作 GPT-4 程序。
对于需要在微调之外更多定制模型特征的用户(主要指拥有超大规模专有数据集、对应数十亿 token 的场景),OpenAI 还启动了模型定制计划,为特定组织提供与 OpenAI 研究团队合作的机会,共同面向特定领域对 GPT-4 做定制训练。其中包括修改模型训练流程中的各个步骤,开展额外的特定领域预训练,以及运行针对特定领域定制的强化学习后训练过程。组织将拥有对其定制模型的独家访问权。
根据 OpenAI 的现有企业隐私政策,自定义模型不会被提供给其他客户或对外开放,也不会被用于训练其他模型。此外,提供给 OpenAI 用于训练自定义模型的专有数据也不会在任何其他环境中被重复使用。不过,这项计划高度受限且价格昂贵,只面向特定组织开放。
价格更低,限制更少
OpenAI 正在下调各项服务的价格,希望将节约下的成本回馈给用户(以下价格均以 1000 token 为单位):
- GPT-4 Turbo 的输入 token 价格为 GPT-4 的三分之一,即 0.01 美元;输出 token 为 GPT-4 的二分之一,即 0.03 美元。
- GPT-3.5 Turbo 的输入 token 为此前 16k 模型的三分之一,即 0.001 美元;输出 token 价格为二分之一,即 0.002 美元。此前使用 GPT-3.5 Turbo 4k 的开发者输入 token 价格将下降三分之一,即 0.001 美元。所有价格下调仅适用于此次推出的新款 GPT-3.5 Turbo。
- 经过微调的 GPT-3.5 Turbo 4k 模型输入 token 价格降低至四分之一,即 0.003 美元;输出 token 下调至 1/2.7,即 0.006 美元。微调版本还通过新的 GPT-3.5 Turbo 模型,实现了价格与原 4k 版本相同、但上下文窗口扩大至 16k 的效果。这些新价格也将适用于微调版 gpt-3.5-turbo-0613 模型。
OpenAI 还将每位付费 GPT-4 客户的每分钟 token 限制扩大了一倍,现在大家可以在速率限制页面查看新的指标。OpenAI 还公布了自动速率限额的使用等级,用户可以根据自己的情况查看相应限额,并在账户设置中申请提升限额。
版权保护方面,OpenAI 推出了 Copyright Shield,即帮助客户应对关于侵犯版权的法律索赔,并支付由此产生的费用。这项服务将在 ChatGPT Enterprise 及开发者平台上全面开放。
此外,OpenAI 即将发布 Whisper large-v3,即开源自动语音识别模型(ASR)的下一版本,其跨语言性能将得到提升。OpenAI 还计划在不久之后通过 API 支持 Whisper v3。
OpenAI 同时开源了 Consistency Decoder,即 Stable Diffusion VADE 解码器的替代方案。这款解码器针对 Stable Diffusion 1.0 VAE 所兼容的一切图像做出优化,在文本、人脸和直线等处理能力上均有显著改进。
ChatGPT 周活跃用户破亿, 大股东微软 CEO 现身“带货”Azure
在开发者大会上,OpenAI 公司 CEO Sam Altman 宣布,ChatGPT 的周活用户数量已经突破 1 亿。自今年 3 月通过 API 发布 ChatGPT 与 Whisper 模型以来,该公司目前已经吸引到超 200 万开发人员,涵盖超 92% 的全球财富 500 强企业。
在发布的近一年之后,ChatGPT 已经被广泛认定为有史以来增速最快的消费级互联网应用,其用户数量估计在短短两个月内就达到 1 亿。相比之下,Facebook 自 2004 年推出以来经过约四年半时间才拥有 1 亿用户,Twitter 达成这个目标用了五年多时间,Instagram 则用了两年多。可以说,ChatGPT 仍是有史以来增长速度最快的服务之一。
今年以来,OpenAI 聊天机器人似乎成为流量密码,谁拥抱它、谁就能获得用户的青睐。早在今年 2 月,Similarweb 就估计该工具已经迈过了单月 1 亿访问者、单日 2500 万访问者的里程碑。但本次大会上的声明尤其值得关注,因为这是 OpenAI 发布的官方数字,而非第三方粗略统计。有评论认为,OpenAI 发布这些数据似乎是为了反驳近期媒体的报道,即自去年 11 月上线以来 ChatGPT 的人气正有所下滑。
此外,微软 CEO Satya Nadella 意外现身 OpenAI 开发者大会,并传达了一条明确信息:请与我们携手创造。Satya Nadella 向 Sam Altman 强调,“我们的首要任务就是打造出最好的系统,你们可以借此构建起最好的模型,再将其开放给开发人员。”
据报道,微软已经先后向 OpenAI 投资 130 亿美元,并希望吸引更多开发者使用其 Azure 云基础设施提供的计算和存储资源,而非选择亚马逊云科技和 Google Cloud 等竞品。近年来,Azure 已经成为微软的关键业务增长引擎,也帮助该公司重振了自身在开发者心中的品牌形象。
在本次大会上,OpenAI 公布了更加强大的 GPT-4 Turbo 模型,并表示用户还可以借此构建 ChatGPT 聊天机器人的定制版本。该公司也带来了价格更低廉的软件付费选项,允许开发者通过微软购买 OpenAI 的编程工具。但无论走微软的渠道还是直接从 OpenAI 处购买,主机均由 Azure 提供。
微软拥有 OpenAI GPT-4 大语言模型的独家许可,该模型能够根据几个提示词就生成与人类质量相当的输出。微软正推出多款基于 GPT-4 模型的产品,包括用于 Office 生产力应用订阅的 AI 插件、以及 Windows 11 中的智能助手。微软表示,其 Bing 搜索引擎凭借今年早些时候引入 Open AI GPT-4 支持的生成式 AI 功能,而在 2009 年首度亮相的十多年之后,终于在今年 3 月突破了 1 亿日活用户这一里程碑。
Satya Nadella 指出,使用 OpenAI 构建软件的开发者可以通过 Azure Marketplace“将产品快速投放市场”。这也是 Satya Nadella 用于吸引大量开发者使用 Azure 的最新战略。2018 年,微软就曾斥资 75 亿美元收购 GitHub,而 GitHub 正是无数企业用于存储和共享代码的主力开发平台。Satya Nadella 表示,微软将向所有与会者开放 GitHub Copilot 企业版,帮助开发人员高效补全源代码行。
微软正努力发挥 OpenAI“大庄家”这一优势地位,希望让 Azure 成为更多开发者构建 AI 产品和服务的首选平台。Satya Nadella 指出,“我们的使命是帮助世界上的每个人、每家组织取得更大的成就。对我来说,AI 必须通过赋能来发挥它的价值和作用。”
Sam Altman 也从自己的角度努力推广微软产品,并为企业客户勾勒出了关于通用人工智能(AGI)的美好前景。Sam Altman 在发言中强调,“我认为我们与微软有着科技领域最好的合作伙伴关系,很高兴我们能够为 AGI 的实现而共同努力。”关于双方业务安排,Sam Altman 表示“我们双方之间已经建立起合作关系,我们乐于看到微软成功拿下一笔笔订单,微软也真心为 OpenAI 业务的快速发展喝彩。”
根据公司发言人介绍,OpenAI 的首届现场活动吸引到约 900 名与会者。作为 ChatGPT 的缔造者,OpenAI 凭借这款 AI 驱动的聊天机器人在去年年底突然走红,更引发了全球对于生成式 AI 领域的大量投入。《华尔街日报》9 月曾报道称,OpenAI 正与投资者就出售股票事宜进行谈判,目前该公司的估值已经在 800 亿到 900 亿美元之间。
参考链接:
https://openai.com/blog/introducing-gpts
https://openai.com/blog/new-models-and-developer-products-announced-at-devday
https://www.theverge.com/2023/11/6/23948386/chatgpt-active-user-count-openai-developer-conference
https://www.cnbc.com/2023/11/06/microsoft-ceo-nadella-makes-surprise-appearance-at-openai-event.html
https://www.reddit.com/r/LocalLLaMA/comments/17p9mgc/openai_dev_day_discussion/
声明:本文为 InfoQ 翻译整理,未经许可禁止转载。