作者:王焕超 腾讯研究院研究员
导语| 自苹果的Siri在2016年发布以来,相关技术一轮又一轮地革新,但智能助手的智能化程度并没有我们想象中提升得那么快。美国时间2021年5月18日,一年一度的谷歌I/O大会如期而至。在一众产品和技术之间,LaMDA并不起眼,但它却可能是智障语音助手的拯救者。
到了今天,已经很少有人会把“智能语音助手”当回事,更多人把它看作是“智障”的同义词。最近热播的《爱,死亡和机器人》第2季,在第1集中也告诉了我们一个智障的语音助手会带来多严重的后果:在清洁机器人“发疯”并开始无差别攻击之后,女主人打电话给智能客服,不但没能解决任何问题,反而一直在添乱,最终靠人的力量才勉强逃出生天。
啊,难道说,我们未来仍然要承受这么智障的语音助手吗?不断失望之后,我们的要求也越来越低,除了让它帮忙订一个明早8:00的闹钟或打开某个App,已经别无他望。
好在事情出现了转机。美国时间2021年5月18日,一年一度的谷歌I/O大会如期而至。在一众产品和技术之间,LaMDA并不起眼,但它却可能是智障语音助手的拯救者。
01
LaMDA究竟是什么?
LaMDA的全称是LanguageModel for Dialogue Applications,简单而言,它是一种能力更强的语言模型,适用于对话应用程序。
与前辈BERT、GPT-3一样,LaMDA也基于Transformer架构。后者是谷歌公司于2017年发布并开源的神经网络架构。利用该架构生成的模型,可以被训练阅读一组单词(比如一句话或一个段落),并且关注这些单词之间的联系,然后预测接下来会是什么单词。[1]与其他模型不同的是,LaMDA在对话方面接受了更多训练。
在展开介绍之前,我们需要仔细想想,现有的语音助手为何如此“智障”?智障的根本原因是技术能力不足,具体表现为“文不对题”——不能给我们想要的答案,这一点相对还好解决,只要加大训练量就能逐渐优化。但另一个更难以解决的问题是,语音智能助手只会孤立地理解我们提出的问题,并且孤立地给出答案。换句话说,你不能指望它联系上下文语境,跟我们进行长时间的“连续对话”。
要知道,我们在现实中的对话场景是完全开放性的,经常是从一个主题出发,延伸到另一个主题,最后在完全不相关的主题结束。比如,我们见到一个朋友,常常以“你吃饭了没?”打头,聊到前几天推出的一款新游戏,最后打算周末约一场电影。
现实对话的开放性特征,使之成为机器学习领域最难解决的问题之一。它涉及到一项很重要的能力,即自然语言理解(NLU),要求AI能够进行语义语境情感的判断,这是比自然语言处理(NLP)还要复杂的能力。
而现在大多数智能助手,往往按照狭窄的、预先定义好的对话路径被设计,并不能进行开放对话、连续对话。这就是它们看起来还相当智障的原因。
而LaMDA就针对这一问题进行了技术突破。LaMDA基于谷歌2020年的一项研究[2],这项研究显示,基于Transformer架构的语言模型在经过对话训练后,能够谈论几乎所有话题。
在训练的过程中,LaMDA发现了开放式对话与其他形式语言的细微差别。它最为核心的,就是进行“开放域”(Open Domain)对话的能力。而这项能力的重要依托,就是相比于现有的对话模型,LaMDA更能理解对话的语境。它可以通过阅读句子或段落来“破译”对话意图,发现单词之间的关联,并能预测接下来可能出现的单词,从而做出合乎语境的回答。
在这样的能力支撑下,LaMDA能够和人在无穷无尽的话题转换中聊下去,进行长时间的开放性对话。用谷歌官方的话来形容,就是“能够用自由流动的方式,谈论无穷无尽的主题”。
02
从“冥王星”到“纸飞机”
在本次谷歌I/O大会上,LaMDA充分展示了强悍的对话能力。[3]演示环节中,LaMDA扮演了冥王星的角色,与用户进行对话。
在示例场景中,LaMDA能够根据用户的提问作出精准回答,而且还能够将一个主题,引向另一个主题,不断推进对话。这种主题的过渡并不突兀,显得自然而合理。
当被问到:“你希望大家了解你的哪一面?”
它这样回答:“我希望人们知道我不仅仅是一颗随机的冰球(random ice ball),我实际上是一个美丽的星球。”
对于“冥王星之前是否有过到访者”的问题,LaMDA也能给出准确的答案。它甚至还贴心地提醒用户,如果要访问冥王星,需要带上大衣,因为它非常冷。
这种对话给人的感觉,就像是在和一个知识渊博的朋友聊天。虽然话题天花乱坠、不断涌现,但LaMDA总能接住话茬,并且自然而然地展开对话。
在另一个演示中,LaMDA也展现了高超的对话能力。
在这个演示中,LaMDA扮演的角色是一架纸飞机。当用户问,你曾经最糟糕的着陆地点是什么?它回答说:“可能是一个小水洼(puddle)。”
当被用户问到:“一架真正好的纸飞机的秘诀是什么?”
它主动追问用户:“‘好’是什么意思?”,体现了足够的灵活和机敏。
用户回答:“我关心距离(distance)。”LaMDA进而围绕“如何优化纸飞机的飞行距离”这一话题,分享了相关知识。
要知道,LaMDA的这些回复都不是预先设定的,而是自然生成的。这也就意味着,LaMDA不必再经过专门的训练才能进行另一次对话,也不会作出重复的回答。这样的能力确实令人惊奇。
这两个示例中,仅凭寥寥几语就能看出LaMDA使问题应答更有意义了,而这就是理解对话语境能力带来的结果。在这样的能力辅助下,LaMDA表现得相当理智和机敏。
谷歌公司也表示,理智和特异性并不是LaMDA所追求的唯一品质。他们还注重洞察力、幽默感等能力。与此同时,谷歌也非常关注事实性问题,也就是LaMDA的回答是否符合事实。[4]毕竟对于一个语音助手来说,有趣很重要,正确更重要。
03
LaMDA的前路仍然遥远
无论是更先进的AI还是更智能的聊天机器人,谷歌在过去几年一直在着力促进AI如何更好地与人类沟通。
皮查伊在演讲中提到,语言的丰富性和灵活性正在使其成为人类最伟大的工具之一,同时,它也成为计算科学的最大挑战之一。虽然现在LaMDA可以根据对话语境提供建议和答案,让对话不违和地进行下去,但它仍在研发初期,想要达到AI助手的功能,还需要时间的磨合。
问题是,提升AI助手的对话能力,究竟有什么意义?至少对于谷歌而言,这项能力作用重大,因为谷歌的很多重要产品都与信息检索有关,它们都基于对计算语言的解读,无论是翻译能力,还是对用户检索信息的理解。如果谷歌能让AI更好地理解语言,那么它就能改进相关的核心产品,比如Google Search、Assistant和Workspace。“它甚至可以将搜索变成对话,更自然流畅。”皮查伊如是说。
当然也不单单是对谷歌一家公司,对话能力的进步突破,无疑会给所有涉及到人机对话的领域带来全新想象力。但语言的丰富性、灵活性以及随之伴生的复杂性,无疑使这项工作成为极大的挑战。可以说,面对这样一个困难领域,LaMDA的能力还称不上成熟。在现实运行中,它仍可能出错,给出荒谬的回应。
比如,在扮演冥王星的演示案例中,它就说到自己跳得很高(jump really high),经常练习翻转动作,并且很乐于用它最喜欢的球——月球来玩接球游戏。这些回答显然是违背常识的。
除此之外,作为语言模型,LaMDA也无可避免地面临一些AI的老问题。比如它可能会被滥用或者传播偏见。算法偏见是个极为复杂的问题,既可能源于算法结构设计,也可能是训练数据集的问题,它的本质是社会偏见在算法层面的延伸。
如谷歌所言,“语言可能是人类最伟大的工具之一,但像所有工具一样,它可能会被滥用。接受语言训练的模型可能传播这种滥用行为——例如,通过内化偏见、反映仇恨言论或复制误导性信息。即使它所训练的语言经过仔细审查,模型本身仍然可能不被善用。”[5]
当然,LaMDA还会面临许多意想不到的现实风险。比如被违法犯罪分子用于网络欺诈,类似的新闻已经屡见不鲜。更仿真的对话能力,也就意味着更强大的欺诈能力。
即便在技术层面,LaMDA也有更大的优化空间。目前,LaMDA主要是围绕文本对话进行构建的,在未来,LaMDA可能会兼容其他的媒介形态,包括图像、音频、视频等等。这可以寄希望于同在本次大会发布的MUM(多任务统一模型),未来人机交互手段或许会因这两项技术而出现革命性的变化。
LaMDA的具体作用如何,还待进一步观察,毕竟Google之前有过黑历史(2017年,Google发布了餐厅订位服务AI Duplex,后来被发现背后有真人帮忙完成[6])。不过,人们和AI进行更自然、开放的对话,相信已经不再遥远了。
参考资料:
1.https://www.blog.google/technology/ai/lamda
2.https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
3.https://www.youtube.com/watch?v=aUSSfo5nCdM
4.https://www.blog.google/technology/ai/lamda
5.https://www.blog.google/technology/ai/lamda
6. https://wallstreetcn.com/articles/3567850
近期热文推荐
腾讯低代码OTeam建设概述
企业微信万亿级日志检索系统
关于《秦时明月世界》运维的那些事儿
—自研上云与core优化
你“在看”我吗?