编译:lin、木槿、夏雅薇
衡量AI的智能程度是计算机科学领域中最为棘手和最重要的问题之一,如果你不知道自己建造的机器是否比昨天更聪明,那如何知道自己正在取得进展呢?
乍一看,这似乎不是一个问题。有人会说显然人工智能正在变得更加智能,你只需要看该领域涌入的金钱和人才。历史里程碑上记录着人工智能在围棋上击败人类,现如今满大街都是可以解决十年前问题的应用程序,比如图像识别。这难道不是进步吗?
智能对于AI到底意味着什么?
还有人说这些成就并不是衡量智能化程度的好标准,在国际象棋和围棋上击败人类确实令人印象深刻,但是如果最聪明的计算机只会解决小孩或者老鼠能解决的问题,这样的成就又有什么意义呢?
这是一位叫做François Chollet的AI研究人员提出的批评意见,他是谷歌的软件工程师和机器学习社区中的知名人士,他创建了Keras,Keras是一种广泛使用的程序,可用于开发神经网络(当代AI的精髓)。他还撰写了许多有关机器学习的教科书,并维护了一个受欢迎的Twitter供稿,在其中分享他在该领域的观点。
他在最近发表一篇题为“关于智能的度量”论文中提出一个观点,人工智能领域需要重新关注什么是智能,什么不是智能;如果想在通用人工智能方面取得进步,研究人员需要分析诸如电玩游戏和棋盘游戏流行的原因,并且开始思考到底什么技能使人类变得更聪明,例如概括和适应能力。
论文链接:
https://arxiv.org/abs/1911.01547
在接受The Verge的电子邮件采访时,他阐述了对这个主题的看法,并解释为什么他坚信人工智能的成就被歪曲了,我们未来应该如何衡量智能以及为什么诸如马斯克等人讲述的超级智能AI的恐怖故事对公众的影响力如此之大。
为了方便阅读,我们对这次的采访进行了不改变原意的编辑,和文摘菌一起来看看吧~
在你的论文中,你描述了两种塑造AI领域的不同智能概念,第一种将智能表示为在各种任务中表现出色;另一种智能则将适应性和概括性作为优先特质,这可以提升AI应对新挑战的能力。哪种概念是目前的主流,对应的影响是什么?
人工智能领域的前三十年中,最有影响力的是前者,将智能作为一组静态程序和明确的知识库。目前,智能的概念已经有偏向后者的趋势,在AI社区中智能概念化的主导方式是“白板”,一个更加贴切的比喻是“新初始化的深度神经网络”。这个框架几乎没有受到挑战,甚至没受到审查。这些问题有大概30年的学术历史,而我对这个领域的了解也不是很多,大多数人都是在2016年以后才进入深度学习领域的。
拥有这样的知识垄断绝对不是一件好事,特别是对于没有很好解决的科学问题。它限制了大家对这个问题的想象空间。研究人员现在才开始意识到这个问题。
在你的论文中,你还提到一个案例,在这个案例里,需要对智能更完善的定义,AI才能提升表现,研究人员专注于研究诸如电玩游戏和棋盘游戏的静态测试中的性能好坏。为什么你觉得这种衡量方法不够智能?
关键在于,你一旦选择了一个衡量标准,你就会使用一切可以使用的捷径。比如说你选择下棋作为智力的衡量标准(从70年代到90年代都是这样做的),那么最终你得到的是一个会下棋的系统。这对其他事情就没什么帮助,你最终会进行树搜索和极大极小化,但是这并不能说明你对人工智能有多了解了。如今,在诸如dota或StarCraft之类的电玩游戏中,将游戏技能作为智能程度的指标也陷入了同样的误区。
对人类而言技能和智力是密切相关的。人脑可以利用智力来获取特定任务的技能,一个真正擅长下国际象棋的人会被认为非常聪明,因为我们都假设他们是从零开始,必须利用他们的智力来学习下棋。他们不是天生就会下棋,所以我们知道他们可以将这种普遍的智能引导到其他任务上,并且同样高效地完成其他任务,这就是一般性的意义。
机器没有人的这种限制,机器完全可以被设计成专门用来下棋的。因此,我们对人类所做的推论(可以下棋,就是聪明的)就被推翻了,我们的拟人化假设不再适用。通常智能可以生成特定任务的技能,但是没有从特殊到普遍的反向路径。因此,在机器中技能与智能相互独立,只要你获取足够和任务相关的数据或者足够的工程资源就可以获得处理任何任务的技能,但是这不会让机器更接近一般智能。
所以问题的关键在于没有任何一项任务可以使高技能成为智能的标志,除非该任务实际是一个元任务,这样它就涉及到在处理相关未知问题时获取新的技能,这正是我提出的智能衡量标准。
当前的这些衡量标准无法帮助我们开发更通用、灵活的AI,那为什么它们还如此受欢迎?
毫无疑问,在特定的知名电子游戏中击败人类冠军的成就主要是这些项目背后的新闻报道推动的。如果公众对这些令人影响深刻的里程碑不感兴趣,那么研究人员也就不会花这么多时间在这些事上。
新闻报道让我们关注电玩游戏中的AI。我对此表示悲哀,因为研究应该解决开放的科学问题,而不是过度关注公关。如果我打算使用深度学习以非常高的水平玩好魔兽争霸Ⅲ,那么可以肯定的是,只要我有足够的人才和计算能力就可以实现,类似的任务大约花费几千万美元。
但是一旦完成,我将学到什么有关于智力或泛化的知识嘛?没有,什么都没有,充其量我会掌握有关拓展深度学习的工程知识。因此,我不会把这看作科学研究, 因为它不会教给我们新知识,也没有回答尚未解决的问题。如果问题是“我们可以以超人的水平玩X吗?”,答案是肯定的,只要可以生成足够密集的训练样本并将其输入到具有足够计算力的深度学习模型中就可以,这是我们早就知道的事实(实际上,在Dota2和StarcraftⅡ比赛中,AI尚未夺冠的时候我就说过)。
你认为这些项目的实际成就是什么?项目成果多大程度被误解或歪曲?
我看到的一个明显的错误表述是,这些高技能的游戏系统代表着AI系统的真正进步,可以处理现实世界的复杂性和不确定性”问题,比如OpenAI在其Dota2机器人玩家OpenAI Five的新闻稿中声称的那样。
事实上他们做不到, 如果他们做到了,那将是一个非常有价值的研究领域。以OpenAI Five为例:它一开始就无法处理Dota 2的复杂性,因为它只被训练了16个角色,无法覆盖拥有超过100个角色的游戏。它被训练了超过45,000个游戏年,其次请注意训练数据需求是如何与任务复杂性相结合而增长-然而最终的模型却非常脆弱:在AI对公众开放之后的几天内,非顶级真人玩家就能够找到了战胜它的策略。
如果你希望有朝一日能够处理现实世界的复杂性和不确定性,你需要开始问一些问题,例如什么是泛化?我们如何衡量和最大化学习系统的泛化能力?这与在大型神经网络中投入10倍以上的数据和计算才可以将其能力提高一点点完全呈正交性。那么什么方式可以更有效地衡量AI的智能程度呢?
简而言之,我们需要停止对事先已知的任务(如国际象棋,Dota或《星际争霸》)进行技能评估,而应开始评估技能习得能力。这意味着仅给机器未知的新任务,测量其相关领域的知识水平,并测量系统的采样效率(即学会这个任务需要多少数据)。为了达到给定的技能水平,所需的信息(先验知识和经验)越少,系统就越智能。如今的AI系统实际上根本不那么智能。
另外,我认为我们对机器智能的测度应该更加明确它与人类智能的相似性,因为可能存在不同类型的智能,而当我们谈论一般智能时,我们实际上就是在隐含地谈论类人的智能。这涉及试图了解人类天生具有哪些先验知识。人类拥有着无与伦比的学习效率-只需要很少的经验就能掌握新技能-但人类不是从零开始学的。除了一生积累的技能和知识,他们还利用先天先验知识。
我最近的论文提出了一个新的基准数据集ARC,它看起来很像IQ测试。ARC是一组推理任务,其中每个任务都是通过一小段演示序列(通常是三个)来解释的,你应该从这几个演示中学习如何完成任务。ARC的立场是,系统用于评估的每个任务都应该是全新的,并且只包含与人类先验知识相适应的知识。例如,它不应使用语言。目前,ARC对于人来讲是完全可解的,无需任何口头解释或事先培训,但迄今为止我们尝试过的任何AI技术都无法达成。这是一个明显的信号,我们需要新的想法。
如果继续在问题上投入更多算力,你觉得人工智能还有发展吗?有人认为,从历史上看,这是提高性能的最好方法。而其他人则认为,如果我们沿着这条路走下去,很快会看到收益递减。
如果要执行某个特定任务,算力这条路绝对是正确的。在垂直任务上投入更多的训练数据和计算能力将提高机器解决该任务的性能。但它不会对如何实现人工智能的通用性有任何贡献。
如果你有足够大的深度学习模型,并且在任务的输入-输出跨空间的密集采样中对其进行训练,它将学会解决任务的方法-无论是Dota也好,或者StarCraft,你可以为其取名。这非常有价值。在机器感知问题中几乎具有无限的应用。唯一的问题是,所需的训练数据量是任务复杂度的组合函数,因此,即使是略微复杂的任务也可能变得非常昂贵。
以自动驾驶汽车为例。数以百万计的训练情况不足以使端到端深度学习模型学会安全驾驶汽车。这就是为什么还没有L5自动驾驶的原因。其次,最先进的自动驾驶系统主要是使用深度学习将这些人工设计的模型与传感器数据相连接的符号模型。如果深度学习可以泛化,我们也许会在2016年就可以有L5自动驾驶,它会采用大型神经网络的形式。
最后,考虑到当前AI系统的局限性,似乎值得问一下有关超级智能的概念,有人担心功能强大的AI可能在不久的将来对人类造成极大伤害的恐惧。你认为这种恐慌是合理的吗?
我不觉得超级智能的叙述是有根据的。我们从未创建过一个自主的智能系统。也绝对没有迹象表明我们可以在可预见的未来创建一个。(这不是当前AI的发展方向。)而且,即使我们最终在不久的将来创造出了一个,我们也无法推测它可能具有什么特征。打个比方,这有点像在1600年问:“弹道学发展这么快!如果我们拥有能消灭整个城市的大炮该怎么办?我们如何确保它只会杀死坏人?” 这个问题本身就有问题,在缺乏对该系统基本了解的情况下讨论这个问题,充其量只是哲学探讨。
这些对于超级智能的恐惧,掩盖了AI有可能在当今变得非常危险的事实。普通的人工智能已经有很多隐患了。我写过关于使用AI来实现算法推广系统的文章。其他人写过算法偏差的危害,以及在武器系统中使用AI或将AI作为极权主义控制工具。
有一个关于1453年君士坦丁堡被围困的故事。这座城市在与奥斯曼帝国军队作战时,其学者和统治者却在争论天使的性别。好吧,我们花越多的精力专注讨论天使的性别或假设的超级智能AI的价值取向,我们用来处理当今AI技术所面临的紧迫问题的精力就越少。一位著名的技术领导者喜欢将超智能AI描述为对人类的生存威胁。好吧,这些想法会成为头条新闻,但你却不讨论因部署不够准确,自动驾驶系统引起的撞车和人员伤亡等道德问题。
如果真像你所说的目前尚无科学依据支持这些言论,那为什么超级智能的说法这么受欢迎?
我认为这是一个好故事,人们容易被好故事吸引。它与末世论的宗教故事相似并非偶然,因为经年累月的不断发展和选择淘汰,宗教故事已经可以引起人们的强烈共鸣并形成有效传播。出于同样的原因,你也可以在科幻电影和小说中找到这种叙述。它被用在小说中的原因,类似于宗教叙事的原因,也可以用来解释为什么这变成了AI的一种流行解读:因为这是一个好故事。人们需要故事来理解世界。对此类故事的需求远比了解智能的本质需求或了解什么推动技术进步的需求强得多。