预测 6:开发类人机器人的努力将吸引相当大的关注、资金和... [ ] 图片来源:路透社
1) GPT-4 将在接下来的几个月内发布——是的,这将是一个重大事件。
最近关于 GPT-4 的谣言四起,GPT-4 是下一代 OpenAI 强大的生成语言模型。
预计 GPT-4 将在新年初发布,并代表相对于 GPT-3 和 3.5 的显着阶跃性能改进。正如最近围绕 ChatGPT 的炒作一样狂热,这只是 GPT-4 发布时公众反应的前奏。系好安全带。
GPT-4 会是什么样子?也许违反直觉,我们预测它不会比它的前身 GPT-3 大很多。在今年早些时候发表的一篇有影响力的研究论文中,DeepMind 研究人员确定,当今的大型语言模型实际上比它们应该的要大;为了获得最佳模型性能(给定有限的计算预算),当今的模型应该具有更少的参数但在更大的数据集上进行训练。换句话说,训练数据胜过模型大小。
推广
大多数当今领先的语言模型都是在大约 3000 亿个令牌的数据集上训练的,包括 OpenAI 的 GPT-3(1750 亿个参数大小)、AI21 Labs 的 Jurassic(1780 亿个参数大小)和 Microsoft/Nvidia 的 Megatron-Turing( 5700 亿个参数)。
我们预测 GPT-4 将在至少比这大一个数量级的数据集上进行训练——可能大到 10 万亿个令牌。同时,它将比 Megatron-Turing 更小(即参数更少)。
GPT-4 有可能是多模式的:也就是说,除了文本之外,它还能够处理图像、视频和其他数据模式。这意味着,例如,它可以将文本提示作为输入并生成图像(就像 DALL-E 所做的那样);或者将视频作为输入并通过文本回答有关它的问题。
多模式 GPT-4 将是一个重磅炸弹。然而,更有可能的是,GPT-4 将是一个纯文本模型(就像以前的 GPT 模型一样),其在语言任务上的表现将重新定义最先进的技术。这具体会是什么样子?GPT-4 可能在性能上表现出惊人飞跃的两个语言领域是记忆(保留和参考以前对话中的信息的能力)和摘要(将大量文本提炼为其基本元素的能力)。
2)我们将开始耗尽数据来训练大型语言模型。
说数据是新石油已经成为陈词滥调。这个类比以一种未被充分认识的方式恰当地表达出来:两种资源都是有限的,并且有被耗尽的风险。这种担忧最紧迫的人工智能领域是语言模型。
正如我们在上一节中讨论的那样,DeepMind 的Chinchilla 工作等研究工作强调,构建更强大的大型语言模型 (LLM) 的最有效方法不是让它们变得更大,而是在更多数据上训练它们。
但是世界上还有多少语言数据呢?(更具体地说,还有多少语言数据符合可接受的质量阈值?互联网上的大部分文本数据对训练 LLM 没有用。)
这是一个很难准确回答的问题,但据一个研究小组称,全球高质量文本数据的总存量在 4.6 万亿到 17.2 万亿个令牌之间。这包括世界上所有的书籍、所有的科学论文、所有的新闻文章、所有的维基百科、所有公开可用的代码,以及互联网的大部分其他内容,都经过了质量过滤(例如,网页、博客、社交媒体)。最近的另一项估计将总数定为 3.2 万亿令牌。
DeepMind 的 Chinchilla 模型在 1.4 万亿个令牌上进行了训练。
换句话说,我们可能会用尽世界上所有有用的语言训练数据供应,差一个数量级。这可能会成为语言人工智能持续进步的重大障碍。私下里,许多领先的 AI 研究人员和企业家都对此感到担忧。
随着 LLM 研究人员寻求解决迫在眉睫的数据短缺问题,预计明年该领域将有大量重点和活动。一种可能的解决方案是合成数据,尽管关于如何操作它的细节还远未明确。另一个想法:系统地转录世界会议的口头内容(毕竟,口头讨论代表着今天未被捕获的大量文本数据)。
作为世界领先的 LLM 研究机构,OpenAI 如何在其即将公布的 GPT-4 研究中应对这一挑战,将令人着迷且富有启发性。
3) 一些公众将首次开始使用完全无人驾驶的汽车作为他们的日常交通工具。
在自动驾驶汽车领域经过多年的过早炒作和未兑现的承诺之后,最近发生了一件似乎很少有人注意到的事情:真正的无人驾驶汽车已经到来。
今天,作为普通大众的一员,你可以下载 Cruise 应用程序(它看起来就像 Uber 或 Lyft 应用程序)并叫一辆无人驾驶的车辆——没有人在方向盘后面——带你在旧金山的街道从 A 点到 B 点。
Cruise 目前仅在夜间(晚上 10 点至凌晨 5:30 之间)提供这些无人驾驶服务,但该公司准备在整个旧金山提供 24/7 全天候服务。预计这将在几周内发生。Cruise 的竞争对手 Waymo紧随其后。
到 2023 年,无人驾驶出租车服务将从令人着迷的新奇事物迅速转变为一种可行、方便甚至平凡的城市出行方式。道路上的机器人出租车数量和使用它们的人数将会激增。简而言之,自动驾驶汽车即将进入商业化和规模化阶段。
将逐个城市推出。除旧金山外,预计明年至少还有两个美国城市向公众提供完全无人驾驶服务。可能的候选地点包括凤凰城、奥斯汀、拉斯维加斯和迈阿密。
4) Midjourney 将筹集风险投资资金。
当今最著名的三个文本到图像 AI 平台是 OpenAI 的 DALL-E、Stability AI(和其他贡献者)的 Stable Diffusion 和 Midjourney。
OpenAI在 2019 年从微软筹集了 10 亿美元,目前正在商谈再筹集数十亿美元。Stability AI几个月前筹集了 1 亿美元,并且已经在寻求筹集更多资金。
相比之下,Midjourney 拒绝了所有外部资金。该公司的使用率和增长速度惊人:截至撰写本文时,它拥有近 600 万用户和可观的收入。然而,根据其网站,Midjourney 仍然是一个“小型自筹资金”组织,只有 11 名全职团队成员。
Midjourney 的创始人兼首席执行官 David Holz 之前是 Leap Motion 的联合创始人兼首席技术官,Leap Motion 是一家曾经风头正劲的虚拟现实初创公司,在 2010 年代筹集了近 1 亿美元的风险投资,然后跌落谷底并在低价出售中被收购.据称,Holz 在 Leap Motion 事件中与他的 VC 投资者的负面经历说服了他这次不会接受外部资本。迄今为止,许多试图投资 Midjourney 的 VC 追求者都被拒绝了。
然而,面对快速增长的需求、日益激烈的竞争和巨大的市场机会,我们预测 Holz 将屈服并在 2023 年为 Midjourney 筹集大量资金。否则,该公司有可能在生成人工智能淘金热中被抛在后面它帮助迎来了。
5) 搜索在 2023 年的变化将超过自 2000 年代初谷歌成为主流以来的变化。
搜索是我们导航和访问数字信息的主要方式。它是现代互联网体验的核心。
今天的大型语言模型能够以几年前难以想象的复杂程度进行读写。这将对我们的搜索方式产生深远的影响。
在 ChatGPT 之后,一种引起广泛关注的搜索重新概念化是会话搜索的概念。如果您可以与 AI 代理进行动态对话以找到您正在寻找的内容,为什么输入查询并返回一长串链接(当前的 Google 体验)?
对话式搜索有着光明的未来。不过,在准备好迎接黄金时段之前,需要解决一个主要挑战:准确性。会话式 LLM 的准确性不可靠;他们偶尔会完全自信地分享不真实的信息。OpenAI 首席执行官山姆奥特曼本人最近警告说:“现在任何重要的事情都依赖 ChatGPT 是错误的。” 大多数用户不会接受准确率为 95% 甚至 99% 的搜索应用程序。以可扩展和稳健的方式解决这个问题将是 2023 年搜索创新者面临的主要挑战之一。
You.com、Character.AI、Metaphor 和 Perplexity 是一波有前途的年轻初创公司,他们希望通过LLM 和对话界面与谷歌抗衡,重塑消费者搜索。
但消费者互联网搜索并不是 LLM 将改变的唯一搜索类型。
企业搜索——组织搜索和检索私人内部数据的方式——同样处于新黄金时代的风口浪尖。由于大规模矢量化,LLM首次实现了真正的语义搜索:能够根据基本概念和上下文而不是简单的关键字来索引和访问信息。这将使企业搜索变得更加强大和高效。
像 Hebbia 和 Glean 这样的初创公司正在带头使用大型语言模型来转变企业搜索。
下一代搜索的机会超越了文本。人工智能的最新进展为多模式搜索开辟了全新的可能性:即跨数据模式查询和检索信息的能力。
鉴于它约占互联网上所有数据的 80%,因此没有一种方式比视频代表更大的机会。想象一下,能够毫不费力地精确搜索视频中的特定时刻、个人、概念或动作。Twelve Labs 是一家初创公司,它构建了一个多模态 AI 平台,以实现细微的视频搜索和理解。
自从谷歌在网络泡沫时代崛起以来,搜索几乎没有发生什么变化。明年,由于大型语言模型,这将开始发生巨大变化。
6) 开发类人机器人的努力将吸引相当大的关注、资金和人才。几项新的人形机器人计划将启动。
类人机器人也许是好莱坞对人工智能夸张、戏剧化描述的最终象征(想想《机械姬》或《我,机器人》)。
好吧,人形机器人正在迅速成为现实。
为什么要制造形状像人的机器人?原因很简单,我们为人类设计了大部分物理世界。如果我们计划使用机器人来自动化世界上的复杂活动——在工厂、购物中心、办公室、学校——最有效的方法通常是让这些机器人具有与完成这些活动的人类相同的外形。这样,机器人就可以部署在不同的环境中,而无需适应周围的环境。
特斯拉今年推出了 Optimus 机器人,推动了人形机器人领域的发展,该机器人在 9 月份的公司人工智能日上首次亮相。埃隆马斯克曾表示,他相信 Optimus 机器人对特斯拉的价值最终将超过其整个汽车业务。特斯拉的机器人在准备好迎接黄金时段之前还有很长的路要走——但不要低估该公司在将全部资源投入这项任务时能够取得的快速进展。
一批有前途的初创公司同样在推动人形机器人领域向前发展,包括 Agility Robotics、Halodi Robotics、Sanctuary AI 和 Collaborative Robotics。
到 2023 年,随着制造类人机器人的竞赛升温,预计会有更多竞争者加入竞争——包括新创公司和老牌公司(例如,丰田、三星、通用汽车、松下)。与 2016 年左右的自动驾驶汽车类似,随着越来越多的人开始意识到市场机会的规模,人才和资本的浪潮将在明年开始涌入该领域。
7)“LLMOps”的概念将作为 MLOps 的流行新版本出现。
当一个主要的新技术平台出现时,相关的需求和机会就会出现,以构建工具和基础设施来支持这个新平台。风险资本家喜欢将这些支持工具视为“镐和铲子”(用于即将到来的淘金热)。
近年来,机器学习工具(广泛称为 MLOps)一直是创业界最热门的类别之一。一波热闹的 MLOps 初创公司以令人瞩目的估值筹集了大量资金:Weights & Biases(以 10 亿美元的估值筹集了 2 亿美元)、Tecton(以 10 亿美元的估值筹集了 1.6 亿美元)、Snorkel(以 10 亿美元的估值筹集了 1.38 亿美元) , OctoML(以 8.5 亿美元的估值筹集了 1.33 亿美元),仅举几例。
现在,我们正在见证一个新的人工智能技术平台的出现:大型语言模型(LLMs)。与 LLM 之前的机器学习相比,大型语言模型代表了一种新的 AI 范式,具有不同的工作流程、技能集和可能性。通过 API 或开源轻松获得大量预训练基础模型完全改变了开发 AI 产品的方式。因此,注定会出现一套新的工具和基础架构。
我们预测术语“LLMOps”将流行起来,作为指代这种新型人工智能镐和铲子的简称。新 LLMOps 产品的示例将包括,例如:用于基础模型微调、无代码 LLM 部署、GPU 访问和优化、提示实验、提示链接以及数据合成和扩充的工具。
8)基于或引用 AlphaFold 的研究项目数量将激增。
DeepMind 的 AlphaFold 平台于 2020 年底首次发布,解决了生命中的一大谜团:蛋白质折叠问题。AlphaFold 能够仅根据其一维氨基酸序列准确预测蛋白质的三维形状,这是人类研究人员几十年来一直未能实现的里程碑式成就。(我们之前曾在本专栏中指出,AlphaFold 代表了人工智能史上最重要的一项成就。)
由于蛋白质几乎支撑着地球上每个生物体内发生的每一项重要活动,因此更深入地了解它们的结构和功能为生物学和人类健康开辟了深刻的新可能性:从开发挽救生命的疗法到改善农业,从抗击疾病到研究生命的起源。
2021 年 7 月,DeepMind 开源了 AlphaFold,发布了包含 35 万个三维蛋白质结构的数据库。(作为参考点,在 AlphaFold 之前人类已知的蛋白质结构总数约为 180,000。)然后,几个月前,DeepMind公开发布了另外 2亿种蛋白质的结构——几乎所有科学已知的编目蛋白质。
在 DeepMind 最新发布几个月后,来自 190 个国家的超过 500,000 名研究人员使用 AlphaFold 平台访问了 200 万种不同的蛋白质结构。这仅仅是个开始。AlphaFold 规模的突破需要数年时间才能充分体现。
到 2023 年,预计建立在 AlphaFold 之上的研究量将激增。研究人员将利用这一庞大的新基础生物学知识宝库,并将其应用于从新疫苗到新型塑料的跨学科应用中,从而产生改变世界的应用。
9) DeepMind、Google Brain 和/或 OpenAI 将致力于为机器人技术构建基础模型。
斯坦福大学研究人员团队去年引入了“基础模型”一词,指的是在大量数据上训练的大型 AI 模型,它不是为特定任务构建的,而是可以在广泛的不同活动中有效执行.
基础模型一直是人工智能近期进展的关键驱动力。今天的基础模型非常强大。但是——无论它们是像 GPT-3 这样的文本生成模型,还是像 Stable Diffusion 这样的文本到图像模型,或者像 Adept 这样的计算机操作模型——它们都只在数字领域运行。
在现实世界中运行的 AI 系统——例如,自动驾驶汽车、仓库机器人、无人机、类人机器人——到目前为止大部分仍未受到新基础模型范式的影响。
这种情况将在 2023 年发生变化。预计世界领先的人工智能研究组织将在机器人技术基础模型概念方面开展早期开创性工作:DeepMind、谷歌大脑或 OpenAI(尽管后者去年从机器人研究中退了一步)。
为机器人建立一个基础模型——换句话说,一个物理世界的基础模型——意味着什么?在高层次上,这样的模型可能会根据来自不同传感器模式(例如,相机、雷达、激光雷达)的大量数据进行训练,以形成对物理学和现实世界物体的普遍理解:不同的物体如何移动,它们如何移动彼此互动,它们有多重、多脆弱、多柔软、多灵活,当你触摸、掉落或扔掉它们时会发生什么。然后可以针对特定的硬件平台和特定的下游活动对该“真实世界的基础模型”进行微调。
10)美国人工智能芯片投资将大幅增长。
人工智能与人类智能一样,同时依赖于软件和硬件。某些类型的先进半导体对于为现代人工智能提供动力至关重要。到目前为止,其中最重要和最广泛的是 Nvidia 的 GPU;AMD、英特尔和一些年轻的 AI 芯片新贵等玩家也在寻求进入该市场。
几乎所有这些人工智能芯片都是在美国设计的。几乎所有这些都是在台湾制造的。一家公司——台积电 (TSMC)——生产世界上大部分的先进芯片,包括Nvidia 备受追捧的 GPU。
为了缓解不稳定的人工智能硬件瓶颈并减少对台湾的依赖,美国政府将在 2023 年大规模激励和补贴在美国本土建设先进的芯片制造设施。今年夏天通过成为法律的 CHIPS 和科学法案为此提供了立法动力和预算资源。
这个过程已经在进行中。两周前,台积电宣布将投资 400 亿美元在亚利桑那州新建两家芯片制造厂。(拜登总统亲自访问了亚利桑那州工厂,为这一消息欢呼。)重要的是,台积电的新工厂——计划于 2026 年开始生产——将能够生产 3 纳米芯片,这是当今世界上最先进的半导体。
随着美国寻求降低关键 AI 硬件的全球供应基地的风险,预计 2023 年将看到更多此类承诺。
注:作者是 Radical Ventures 的合伙人,Radical Ventures 是 Hebbia、Twelve Labs 和 You.com 的投资者。
原文:https://www.forbes.com/sites/robtoews/2022/12/20/10-ai-predictions-for-2023/?sh=591890fffab7