利用one-shot视觉概念学习实现对话游戏中的交互式语言学习
作者:Haichao Zhang, Haonan Yu, and Wei Xu
全文下载,公众号回复:20180515
作者简介
第一作者:张海超,未检索到有关信息。
第三作者:徐伟
有关链接:http://research.baidu.com/People/index-view?id=110
履历:现任百度深度学习实验室杰出科学家,深度学习技术及应用国家工程实验室首席科学家。负责百度深度学习平台PaddlePaddle的开发以及通用人工智能的研究,所开发的平台被广泛用于百度的搜索、广告等多个产品并带来重大收益。徐伟所带领的研究团队是世界上最先把计算机视觉和自然语言处理统一到一个深度学习模型的团队之一。
荣誉:百度IDL杰出科学家,曾任Facebook资深科学家,曾任NEC高级研究员
主要方向:计算机视觉、机器学习和深度学习
特别说明
该论文的主要工作是改善了自然语言理解领域深度学习方法使用中遇到的训练数据量大、灵活性差等问题,利用one-shot方法联合了模仿与强化学习,在单词级别和语句级别任务中进行了验证。探索了一种小样本快速学习人类语言的可能性。
摘要
建立可以向人类学习自然语言交流的智能体价值巨大。有监督的语言学习由于受到了统计学习抓取能力的限制,在没有足够重训练数据或灾难性遗忘的情况下,非常难以适应新的场景、灵活性差。我们强调一种将对话式交互看作是语言学习和新颖知识获取的视角,提出了一种联合了模仿和强化的方法,在一种交互式对话游戏中实现理性的语言学习。使用这种方法训练好的智能体可以可以通过提出关于新目标的问题来动态获取信息,并在后续的对话中以一种one-shot形式来使用刚刚学习到的知识。试验结果表明,相比于其他方法,我们提出的方法更加有效。
文章结构
精华内容
1.核心思想:one-shot概念实现语言习得过程
针对传统人类语言深度学习方法的训练数据量巨大、灵活性差问题,受到人类语言习得过程中的两个特点启发:1)人类在语言交流的过程中可以持续提升语言能力;2)人类可以通过小样本甚至是单样本的学习就可以习得新的概念和语言。
作者提出了基于one-shot概念的学习方法,综合模拟和强化学习方法,在交流环境中纯粹通过“老师”来持续提升模型的语言能力,并实现通过小样本习得新语言的能力。
2.one-shot学习和动态学习有关工作
2011年开始在该方向的研究主要集中于视觉领域的探索。通过记忆增强网络方法混合外部真实值标签进行one-shot学习(Santoro et al., 2016)。一种vanilla RNN网络在没有外部存储的情况下实现动态学习(Woodward and Finn,2016)。
3.对话游戏环境搭建
受到认知科学领域对婴儿语言学习研究工作的启发,作者使用XWORLD模拟器构建了对话游戏环境,该环境已可在网上获取。地址:https://github.com/PaddlePaddle/XWorld
对话游戏为智能体提供了学习语言和开发one-shot学习能力的环境,如图所示。智能体需要在仅与“老师”交互的情况下完成三项挑战:
1)通过产生语句“说话”
2)对只出现一次的信息中的有用内容进行提取和记忆,并使用在后续对话中
3)根据上下文语境和自身知识适应性调整行为
“教师”主要做五件事:提问、回答问题、声明、或者什么也不说,以及对智能体的回答进行奖励反馈。教师语句的语法如下表所示。
4.综合模仿和强化学习的新方法
模仿用于帮助智能体开发生成有意义语句的基本能力。强化学习实现对语言交流的动态调整,通过奖励反馈来调整行为策略。
损失函数定义如下,即寻求模仿损失函数和强化损失函数的最小化过程。模仿损失函数主要考虑智能体模仿对话过程中的输出向量与“老师”向量W之间概率对数求和的期望。强化损失函数主要考虑奖励因子的指数函数,其中概率函数p是强化函数与损失函数之间进行参数共享的。
系统架构由四部分主要模块组成:外部存储、解释器、发言器和控制器。外部存储设备负责灵活存储和检索有关信息。解释器负责解释“老师”的语句,提取信息并存储到外部存储器。发言器负责使用外部存储的信息生成回应的语句。控制器负责根据上下文语境来控制发言器的行为。 四个模块的运行流程如图所示。其中发言器RNN网络和解释器RNN网络共享参数。
5.模仿和强化学习方法的主要组成
模仿主要是解释器模块通过预测“老师”的语句实现,解释器与发言器共享参数。预测模块的函数如下所示。
发言器输出的信息是混合了外部存储模块和预测信息两部分实现的,混合门函数g如下所示。
外部存储模块的结构是按照多通道联想记忆的方式构建的。其中视觉编码器部分是一种CNN网络加全连接层的形式,实现视觉图像编码为视觉特征,从而将语句特征提取出来。记忆写入是一种类似神经图灵机的方式。
上下文语境自适应的强化学习方法主要通过奖励反馈来构建智能体的行为,通过强化学习来优化行为策略。通过最大化未来奖励函数L,实现对策略p的调整,优化过程是基于策略梯度原理实现强化过程。如下所示。
6.试验
主要验证了两类任务:单词级别的简单任务和语句级别的复杂任务。以基本强化学习、模仿方法(解释器RNN)、模拟器 高斯RL三种方法作为对比进行了试验。
单词级别的测试效果如图所示,训练数据集是动物数据集,测试用的是水果数据集。本文提出的方法在成功率上大幅优于对比方法,获得的奖励反馈也明显高于对比方法。
语句级别的任务同样明显高于对比方法,如图所示。
7.讨论
目前的工作对于真实语境下的语言学习具有重要意义,但是所使用的对话游戏环境仍然比较简化,距离真正的人类对话有很大差距,这也是受到了目前语料库等各方面的资源的限制。所以本文的工作更加可以看作是为未来更加通用化和真实自然语言环境中实现one-shot学习、灵活学习的一种初步探索。作者未来将继续探索真实环境中的通用化和应用。