独家 | 2024，AI即将面临什么？

代码语言：javascript复制

作者：Melissa Heikkilä, Will Douglas Heaven翻译：陈超校对：赵茹萱本文约3300字，建议阅读12分钟本文追踪了AI在2024年度的四大热门趋势。

《麻省理工科技评论》的“接下来是什么”一期环顾了行业，趋势和技术以求为您提供最新的未来视角。阅读我们该期的剩余内容（https://www.technologyreview.com/tag/whats-next-in-tech/）。

去年此时我们做了一些鲁莽的事情。在一个一切都在变化的行业，我们尝试预测它的未来。

我们做了什么呢？我们2023年四个大的预测（https://www.technologyreview.com/2022/12/23/1065852/whats-next-for-ai/）是聊天机器人的下一个重大事件可能是多模态（注：最强大的大语言模型，OpenAI的GPT-4以及谷歌DeepMind的Gemini，处理文本，图像以及声音）；执政者可能会制定严苛的新规定（注：拜登的行政命令将于10月份发布）以及欧盟的AI法案在12月份获得通过）；科技巨头可能会感觉到来自开源创业公司的压力（一半正确：开源的繁荣会持续下去，但是像OpenAI和谷歌DeepMind公司仍旧会处于核心地位）；以及AI可能会彻底改变大型制药公司（太迅速以至于无法分辨：药物发现领域的AI革命正如火如荼地进行着，但是第一批使用AI开发的药物距离上市还要几年时间）。

现在我们要再做一次预测。

我们决定忽略掉显而易见的事实。我们知道大语言模型将会持续处于主导地位。监管机构会变得更加大胆。AI的问题——从偏见到版权再到末日论——将会决定研究人员、监管机构和公众的议程，不仅仅是在2024年，而是在未来几年皆如此。

（生成式AI的六个大问题：https://www.technologyreview.com/2023/12/19/1084505/generative-ai-artificial-intelligence-bias-jobs-copyright-misinformation/）

此外，我们选了几个更为具体的趋势。以下是2024需要注意的。（明年再来看看我们做得怎么样。）

1. 定制聊天机器人

如果你得到了一个聊天机器人，你就得到了一个聊天机器人！2024年，重点投资生成式AI的科技公司将会处于证明他们可以从他们的产品中赚钱的压力之下。为了实现这一目标，AI巨头谷歌和OpenAI正在打大赌做小事：他们都在开发用户友好型平台，允许人们定制强大的语言模型，并制作自己的迷你聊天机器人，以迎合他们具体的需求——不需要编程技巧。他们都发布了基于网络的工具，允许任何人都成为生成式AI 的App开发者。

在2024年，生成式AI可能会对监管者，非技术人员来说更有用，我们将会看到越来越多的人摆弄一百万个小型AI模型。最先进的AI模型，例如GPT-4和Gemin，是多模态的，意味着他们不只可以加工文本，也可以加工图片甚至视频。这一新的能力可能会解锁完整的一系列新的APP。例如，房地产经纪人可以上传以前房源的文本，微调一个强大的模型使其只需点击一个按钮就能生成类似的文本，上传新房源的视频和照片，就可以让定制的AI生成对该房源的描述。

但是，当然这一计划的成功取决于这些模型是否可信。语言模型经常会编造一些东西，而生成模型则充满了偏见。它们也很容易被黑客入侵，尤其是在允许它们浏览网页的情况下。科技公司还没有解决这些问题。当新鲜感消退后，他们将不得不为客户提供解决这些问题的方法。

—Melissa Heikkilä

2. 生成式AI的第二波浪潮将是视频

神奇的事物变得熟悉的速度之快令人惊讶。第一批生成逼真图像的生成模型在2022年成为主流，并很快变得司空见惯。OpenAI的DALL-E、Stability AI的Stable Diffusion和Adobe的Firefly等工具在互联网上充斥着令人瞠目的图片，从巴黎世家的教皇到获奖的艺术作品。但也不是所有的事情都很有趣:每有一只摇着绒球的哈巴狗，就有一个山寨的幻想艺术或性别歧视的刻板印象。

新前沿是文本转视频。希望它能把文本到图像的所有优点、缺点或丑的方面都放大。

一年前，当我们训练生成模型将多个静态图像拼接成几秒钟长的片段时，我们第一次看到了生成模型可以做什么。结果是扭曲和不稳定的。但这项技术已经迅速改进。

Runway是一家制作生成式视频模型的创业公司（该公司与他人共同创建了Stable Diffusion），它每隔几个月就会发布新版本的工具。它最近的模型，叫做Gen-2，仍旧在生成几秒长的视频，但是质量显著。最好的视频已经与皮克斯推出的剪辑相差无几。

Runway成立了一个年度AI电影节，展示由AI工具制作的实验性的电影。今年电影节有六万美金的奖金，十部最佳电影将会在纽约和洛杉矶上映。

毫不奇怪，顶级工作室都注意到了这一点。电影巨头，包括派拉蒙和迪士尼，现在都在探索生成式AI在其生产线上的用法。技术公司已经习惯于给演员表演配上多种外语配音。它正在重新塑造特效的可能性。2023年，《夺宝奇兵:命运之盘》的主演是一个深度造假的Harrison Ford。这只是个开始。

在大屏幕之外，用于营销或培训的深度造假技术也在蓬勃发展。例如，UK的Synthesia制作了可以将演员一次性表演变成无限流的深度造假虚拟形象，只要按下按钮，他们就会背诵你给他们的剧本。据该公司称，目前44%的财富100强企业都在使用该公司的技术。

这种花小钱办大事的能力对演员提出了严峻的问题。对电影公司使用和滥用AI的担忧是去年SAG-AFTRA罢工的核心问题。但这项技术的真正影响才刚刚显现。“电影制作的工艺正在发生根本性的变化，”独立电影制作人、专门从事创意技术咨询的公司Bell & Whistle的联合创始人Souki Mehdaoui如是说。

—Will Douglas Heaven

3. AI产生的选举虚假信息将无处不在

如果最近的选举可以作为参考的话，AI产生的选举虚假信息和深度造假将成为一个巨大的问题，因为2024年将有创纪录的人数参加投票。我们已经看到政客们将这些工具武器化。在阿根廷，两名总统候选人制作了对手的AI图像和视频来攻击他们。在斯洛伐克，一位亲欧洲的自由派政党领导人威胁要提高啤酒价格，并拿儿童色情作品开玩笑的假照片在选举期间迅速传播开来。在美国，特朗普为一个利用AI生成带有种族主义和性别歧视隐喻的表情包的组织欢呼。

虽然很难说这些例子对选举结果有多大影响，但它们的扩散是一种令人担忧的趋势。在网上识别什么是真实的将变得比以往任何时候都更加困难。在已经激化和两极化的政治气候下，这可能会产生严重后果。

就在几年前创作一个深度伪造图片可能需要前沿技术，但是生成式AI已经将其变得简单到愚蠢和可行，并且输出也越来越真实。甚至信誉良好的消息来源也可能被AI生成的内容所欺骗。例如，用户提交的旨在描绘以色列-加沙危机的AI生成图像已经淹没了Adobe等图片市场。

对于那些反对此类内容泛滥的人来说，未来一年将是关键一年。跟踪和缓解该类内容的技术仍处于开发的早期阶段。水印，如谷歌DeepMind的SynthID，仍然以自发为主，并不是完全万无一失的。众所周知，社交媒体平台删除错误信息的速度很慢。准备好迎接一场摧毁AI生成假新闻的大规模实时实验吧。

—Melissa Heikkilä

4. 多任务机器人

受当前生成式AI蓬勃发展背后的一些核心技术的启发，机器人专家开始制造更多的通用机器人，这些机器人可以完成更广泛的任务。

在过去的几年里，AI已经从使用多个小模型，每个小模型都被训练来完成不同的任务——识别图像、绘制图像、给它们配上文字——转向使用单个、整体的模型来完成所有这些事情，甚至更多。通过展示OpenAI的GPT-3几个额外的例子（也叫作微调），研究者可以训练它来解决编程问题，写电影脚本，通过高中生物测试等等。像GPT-4和谷歌DeepMind的Gemini这样的多模态模型，既能解决视觉任务，也能解决语言任务。

同样的方法也适用于机器人，所以没有必要训练一个机器人翻转煎饼，另一个机器人开门:一个通用的模型可以让机器人具备多任务处理的能力。2023年出现了这一领域的几个工作实例。

6月，DeepMind发布了Robocat(去年的Gato的更新版)，它通过反复试验生成自己的数据，学习如何控制许多不同的机械手臂(而不是一只特定手臂，虽然这更典型)。

去年10月，该公司与33个大学实验室合作，推出了另一款名为RT-X的通用机器人模型，以及一个新的大型通用训练数据集。其他顶级研究团队，如加州大学伯克利分校的RAIL(机器人AI和学习)，也在研究类似的技术。

问题在于缺乏数据。生成式AI利用互联网大小的文本和图像数据集。相比之下，机器人几乎没有好的数据来源来帮助它们学习如何完成我们希望它们完成的许多工业或家庭任务。

纽约大学的Lerrel Pinto领导团队来解决这个问题。他和他的同事们正在开发一种技术，让机器人通过试错来学习，并在学习过程中产生自己的训练数据。在一个更为低调的项目中，平台招募了志愿者，让他们用安装在拾荒者身上的iPhone摄像头收集他们家周围的视频数据。在过去的几年里，大公司也开始发布用于训练机器人的大型数据集，比如Meta的Ego4D。

这种方法已经在无人驾驶汽车中显示出前景。Wayve、Waabi和Ghost等创业公司正在引领自动驾驶AI的新浪潮，它们使用单个大模型来控制车辆，而不是使用多个较小模型来控制特定的驾驶任务。这让小公司赶上了像Cruise和Waymo这样的巨头。Wayve目前正在伦敦狭窄而繁忙的街道上测试其无人驾驶汽车。世界各地的机器人发展都将以类似的方式往前推动。

——Will Douglas Heaven

原文标题：

What’s next for AI in 2024

原文链接：

https://www.technologyreview.com/2024/01/04/1086046/whats-next-for-ai-in-2024/

编辑：于腾凯

校对：林亦霖

译者简介

陈超，北京大学应用心理硕士，数据分析爱好者。本科曾混迹于计算机专业，后又在心理学的道路上不懈求索。在学习过程中越来越发现数据分析的应用范围之广，希望通过所学输出一些有意义的工作，很开心加入数据派大家庭，保持谦逊，保持渴望。

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

模型视频数据机器人工具

0 人点赞