《连线》杂志网络版今天撰文,披露了Facebook虚拟助理服务M诞生的幕后故事及工作机制。文章指出,为了开发这款产品,Facebook收购了语音识别技术公司Wit.ai,网罗了像亚恩·勒库恩(Yann LeCun)这样的顶尖计算机人才,同时还运用最新的人工智能技术。在做好一切准备之后,Faceboo最终打造出一款号称比苹果Siri等竞争对手更先进的智能产品。
以下为文章全文: 老实说,Siri真的很差劲。通常情况下,它根本不知道你在说什么。即便真的知道,它提供的答案也不过是一个充斥着网络链接的页面。 这一问题的症结在于,苹果的语音助理是基于过时技术开发的。即使该公司用最新的人工智能技术对Siri进行升级,它的表现也远远不及有血有肉、又有神经细胞的人类助理。虽然人工智能技术在过去几年取得了很大进展,但距离真正的智能化还相当遥远。 新的虛拟助理服务“M”的推出,意味着Facebook在很大程度上也认同这种观点。 挑战苹果Siri和Google Now M是基于该公司即时消息应用Facebook Messenger开发的,在北京时间8月2亮相,被推送到旧金山湾区数百名毫无心理准备的用户的手机上。这是Facebook为应对Siri以及Google Now和微软Cortana等类似产品而推出的一项服务。但是,它可以处理更广泛的任务——至少Facebook是这样说的。你可以问M各种各样的问题,比如:“你能帮我预订晚餐吗?”、“你能帮我规划我的下一个假期吗?”它会一一执行这些命令。 这是因为,Facebook设计了这一工具,以便让人工智能技术与人类相配合,对这些问题做出回应。Wit.ai创始人亚历克斯·勒布伦(Alex Lebrun)说:“人工智能试图做一切的事情,但人工智能是由人类控制的。”为了帮助开发这种智能手机工具,Facebook收购了Wit.ai。 在这个由人工智能驱动的私人助理的广阔世界里,M似乎是Facebook回归本源之举。当Facebook面向公众测试M这个工具时,我们并不清楚这种人机合作能否跟上时代的步伐,覆盖比以前任何时候都多的受众。但若以一种违反直觉的方式来看,M可能是向真正的人工智能迈近了一步。 让人类帮助改进人工智能 Facebook开发“M”背后的想法是,人类不仅会回答人工智能所不能回答的问题,而且从长远来看,人类也会帮助改善人工智能技术。大家明白,当前人工智能技术至少还需要人类帮助进行训练。如果你想要获得一套系统,希望可以在YouTube视频中自动识别猫咪,人类必须首先将猫咪的样子展示给这个系统看。 此外,人类必须给各种各样猫咪的照片打标签,还必须提供相关数据。通过人类员工对M提供帮助,Facebook正以异常复杂的方式做着此类事情。“正因为如此,我们建立了一支如此庞大的团队,”勒布伦说。“我们需要的数据是不存在的。”在回答你的问题时,这些人类员工将提供相关数据,为一种更为复杂的数字助理提供帮助,而这种数字助理是基于一种称为“深度学习”的人工智技术开发。 这一过程可能需要多年时间。但是,人工智能的发展方向就是这样的。x.ai创始人兼CEO丹尼斯·莫滕森(Dennis Mortensen)说,“人类层面的人工智能是可以进行相当高深的哲学讨论。这种事情是不会很快发生的。”x.ai是一家提供在线个人助理服务的创业公司,这种服务会自动为客户安排会议时间。 新旧交替的技术 颇具讽刺意味的是,Wit.ai提供的仍是相当过时的人工智能技术。Wit.ai的技术基于两种算法开发,一是“条件随机域”(conditional random fields),二是“最大熵分类器”(maximum entropy classifiers)。这两种算法已经为科技行业服务十多年了。不过,它们也为M项目寻找一种更先进的人工智能提供了一个跳板。 勒布伦在2013年创办了Wit.ai,此前他开发了一种数字服务,帮助AT&T等移动运营商用于与客户沟通。Wit.ai基本上提供了一种可帮助软件程序人员开发Siri式系统的服务,这些系统可以识别语音,并在一定程度上理解自然语言。Wit.ai的服务的确是基于过时的算法所打造,但它可以逐渐学着识别语音,同时又不需要像苹果和谷歌那样,收集海量的语音数据。Wit.ai服务需要更少的数据,而且只要整合了许多开发者搜集的语音样本,就可以在实践中使用。 负责Messenger业务的Facebook副总裁戴维·马库斯(David Marcus)曾想方设法将这项消息服务推向更多的领域,从而给Facebook做出营收贡献。于是,马库斯找到了勒布伦和他的公司。今年1月份,Facebook收购了Wit.ai这家仅有10个人的创业公司,但具体的交易金额不详。 马库斯表示,凭借这一交易,Facebook将“这个世界上最擅长人与人工智能交互的团队之一”收入麾下。但据勒布伦透露,Wit.ai当时并不清楚他们会参与开发什么样的人与人工智能交互产品。大约3个月以后,马库斯、勒布伦及Wit.ai团队的剩余人员最终敲定,基于Messenger开发一项虚拟助手服务,但它不会是另一个“Siri”。 首先,这项服务主要是通过文字而非声音沟通。其次,它会回答各种各样更为复杂的问题。勒布伦表示:“如今,你已经有了大量人工智能产品,如Siri、谷歌Now和微软Cortana,但它们的应用范围很有限。由于人工智能的这种限制,你只能在有限的场合使用。我们希望从一开始就能做更加雄心勃勃的事情,给人们他们真正想要的答案。”也就是说,这个团队需要的不仅仅是人工智能。 离不开人类“培训师”的帮助 当你向M提出问题,这项人工智能技术会试着理解问题,并做出回答。但是,系统不会将答案发给用户,而是先发给人类“培训师”——也就是类似客服的技术人员,他们与Wit.ai团队一起工作,办公地都在Facebook位于加州门洛帕克的新总部。这些培训人员会决定是否还需要做其他的工作,然后再向用户提供他们正在寻找的答案。 据勒布伦介绍,M可以从事大量相对比较简单的任务,如讲个笑话。M会对网络段子API进行排序,如果它提供的段子很有趣,训练师就会批准。至于相对更为复杂的任务,如在机动车管理处(DMV)的网站上进行驾照考试预约,人类本身还要做大量繁重的工作。他们会给机动车管理处打电话确认信息。 在从事此类复杂的任务时,人类“培训师”会针对特殊问题的回答方式生成一个路线图。“培训师所做的每一件事情,我们都会记录下来,”勒布伦说道。这其中包括他们访问的网站,他们在给机动车管理处打电话时说的话,以及回复M用户信息时输入的内容等等。将来,这些数据将有助于开发一个基于深度学习的更先进的系统,一种全新的人工智能技术,可以通过分析一个巨大的机器网络中的大量信息来操控很多任务。基本上,这些网络模拟了人类大脑中的神经元网络。 这些类似于神经的网络已证明它们在识别图像、辨认语音、锁定广告,甚至教机器人拧开瓶盖等方面是非常有效的。在聘请了纽约大学计算机科学研究人员亚恩·勒库恩(Yann LeCun)之后,Facebook最终在这个重要性日益凸显的领域确立了主导地位。该公司现在可以使用类似于神经元的网络,识别贴到社交网络上的照片信息,并能够确定你在信息流(News Feed)中想看什么新闻。Facebook还计划借助M的力量进一步推进这项技术的发展。 “你知道的越多,不懂的也就越多” 为什么不从一开始就用神经网络来打造M呢?如果没有合适的数据,神经网络就不能提供比Siri更为强大的服务,而Wit.ai的技术则可以在数据相对很少的情况下,打造更为强大的服务。“这是一个很好的引导方法。有了几千个数据点之后,你就可以创建一个模型了,”勒布伦说道,“然后,通过这个模型,你又可以获取更多的数据。你的数据点一旦达到100万,就可以去找勒库恩,就深度学习进行深入交流了。” 就像勒布伦所说的,这是一个雄心勃勃的计划。他说,即使把多个神经网络融合起来,Facebook也要在接下来的几年里继续使用人类训练师。随着M的不断进步,它会需要更多的数据以继续改善。“你知道的越多,发现自己不懂的也越多,”勒布伦说道。“M能做的越多,等它完成的复杂任务也越多。” 至少,这是Facebook的如意算盘。M今天刚刚发布,我们还不知道这项服务未来会如何。随着Facebook把M介绍给越来越多的用户,那么它需要的培训师也将越来越多。勒布伦预计,随着用户数量的不断增加,培训师的数量也会直线上升,但由此带来的压力也会是巨大的。Facebook Messenger的用户数量已经超过7亿。“这很不简单了,”勒布伦说。 数据对人工智能发展至关重要 与此同时,即使Facebook能使这个系统不断运行下去,M的发展也不可能像勒布伦和该公司预测的那样快。莫滕森说,实际上,让人类与人工智能携手工作的话,可能会降低工作效率。 莫滕森还以自动驾驶汽车为例,解释这种短板。开发自动驾驶汽车的一种方法是:在人类司机开车的过程中,慢慢加入自动化工具。但是,如果你让车自己行驶的话,也许它的系统发展得会更快——无论它的装备有多么差劲。对于最终成果来说,那些小型自动化工具可能不是最关键的。它们可能搜集的是你不需要的信息。 但同时,莫滕森也像勒布伦和Facebook一样,强调了数据对于人工智能发展的重要性。他说,如果M项目进展顺利的话——合适的引导、记录以及对培训师的行为进行分类——这些人确实能够提供一条捷径。莫滕森说,Facebook必须关注人类在未来如何可以改善这一系统,而不仅仅是现在。那不是一件容易的事情。不过,Facebook在这方面比大多数公司都做得好。