AI 科技评论按:近日,中国香港科技大学杨强教授团队发表了一篇关于迁移学习的论文。在论文中,他们提出了一种新颖的迁移学习范式 Learning to Transfer (L2T),用系统化、自动化的方法解决目前迁移学习中可选算法多、但实际应用中难以找到最佳算法的问题。
AI 科技评论对论文中方法的重点思想介绍如下,涉及具体公式及推导过程请参见原论文。
迁移学习
迁移学习(Transfer Learning)的想法来自于人类在不同的任务间转换知识的能力,在机器学习领域使用迁移学习的目的是为了运用现有领域内的知识,提高模型在新的领域内的表现,又或者训练一个用于新的领域的模型时减少所需要的标记数据数目。在所能获得的标记数据有限的情况下,迁移学习有着重要的意义。
迁移学习研究的关键问题是何时迁移、如何迁移和迁移什么。如果从现有领域进行迁移之后能够有助于新领域的表现,那么就适合迁移(“何时迁移”);要迁移的对象是两个领域内共享的那部分知识(“迁移什么”);算法发挥的作用就是找到这部分知识,然后进行迁移(“如何迁移”)。不同的算法很可能会找到可迁移的知识里不同的部分,就会导致不同的迁移学习效果,在迁移学习完成后对表现进行测量就能够看到这些差别。
要达到源领域和目标领域之间的最优迁移效果,需要研究者们对基于实体、参数、特征的数百种迁移学习算法逐一尝试。由于这样暴力尝试的代价过于高,实际中研究者往往只能在有限的尝试中找到一个次优的算法,而这样的做法则需要对点对点迁移有相当的经验,思考方法也不系统。
Learning to Transfer
杨强教授团队认为,逐一尝试现有的不同迁移学习算法不应成为唯一一种确定要迁移哪些知识并提高迁移学习效果的方法。所以他们在论文中提出了一种新的迁移学习范式,名为 Learning to Transfer(L2T)。受到人类能够根据随着经验增加越来越轻松地判断如何转移知识的启发,L2T 的核心思想就是利用以往的迁移学习经验自动决定在源领域和目标领域之间如何迁移以及迁移什么,从而提高迁移学习的效果;其中对以往经验的利用也是在所有迁移学习算法中首次出现。
为了达到这样的目标,L2T 的过程分为两个阶段:
第一个阶段是“积累经验”。首先,L2T 智能体进行若干次迁移学习,并对这些迁移学习过程做记录。每一次学习的记录分成三部分:一对源领域 S 和目标领域 T,参数化为共享潜特征因子(latent feature factor)格式的被迁移知识 W,以及表现提升比 l(论文中定义这个值为有无迁移学习的状况下表现之比,越高说明迁移学习效果越好)。记录格式类似这样(S,T,W,l)。
接下来 L2T 智能体就需要根据这些迁移经验,学习如何迁移。这个过程是学习一个反射函数 f =(S,T,W),函数值就是刚才的表现提升比 l 。这个反射函数的目标就是通过 S、T、W 预计表现提升比 l ,学到的反射函数内部就隐含了元认知迁移学习的技能,即迁移什么、如何迁移才能够让给定的源领域和目标领域之间的表现提升比最高。源领域和目标领域的特性也参与构成了 f 的一部分。
第二阶段就是真正进行迁移。对于之后再提供的新的一对源领域和目标领域和已经学到的 f,L2T 智能体就可以通过求 f 最大值的方式找到最优的迁移知识,以参数的形式体现在W中。迁移学习算法按照参数W执行,就可以达到设定的迁移学习效果。
论文中 L2T 范式的说明配图。图中黑字的(1)、(2)、(3)就是记录若干次学习、学习反射函数 f、通过 f 对新的源领域和目标领域的迁移方式求最优解
L2T 这种新颖的迁移学习范式为有效地迁移学习开启了新的大门。通过对以往的迁移学习经验的利用,L2T 能够以系统化、自动化的方式在领域间发现更多的可迁移知识,而无需研究者自己具备丰富的经验。
反射函数 f
显然,在这样的范式下,反射函数 f 具体形式的构造是重中之重。目前作者们选定的 L2T 研究领域为针对一阶潜特征因子的迁移学习,即源领域和目标领域的特征空间相同,而标签不同。在构造 f 的过程中,作者们讨论并解决了以下几个问题。
把“学习什么”参数化:对所有算法中的要迁移的内容做统一的参数化。这样的潜特征因子的迁移学习的目标就是学到不同领域间的与领域无关的特征因子。比如从识别狗迁移到识别猫,其中眼睛、嘴、尾巴等共有的特征就是不同领域间可以共享的特征因子。
从经验学习:作者们认为有两个因素对表现提升比 l 有很大影响,在构建 f 的时候这两个方面都要考虑到。因素一是源领域和目标领域在共享潜空间的区别。更小的区别就是更大的重叠空间,这意味着有更多的潜特征因子可供迁移,提升比例也会更高。
对于源领域和目标领域在共享潜空间的区别,作者们首先用了最大平均差异(maximum mean discrepancy,MMD)来衡量。不过MMD的问题是只能衡量两个空间的平均值之间的距离,而不足以衡量两个空间的区别大小(如下图);所以作者们考虑到这一点,也加入了空间分布的集中性的因素在公式中。
如图,蓝色线段为两个空间平均值之间的距离。此图说明了这个距离不足以完全衡量空间区别的大小
因素二是目标领域在潜空间的鉴别能力。目标领域在潜空间的鉴别能力越强,表现的提升也会越明显。由于迁移学习的主要应用场景就是在有标签数据不足时,所以作者们也就直接选择基于无标签数据做计算。无标签数据的鉴别性可以从两个方面评价:类似的实体在嵌入潜空间后也应该距离相近;差别很大的实体在嵌入潜空间后也应该距离较远。从而提出了鉴别性的评价公式。
这样,明确了 f 的具体形式后,就可以先学习以往的若干次迁移学习经验,然后根据学到的 f 求迁移方式(参数W)的最优解。(相关公式参见论文原文)
实验结果
由于不同领域内的任务难度不同,不好直接对比,论文中选择了继续使用前文定义过的表现提升比 l(有无迁移学习的状况下表现之比,越高说明迁移学习效果越好),让 L2T 与其它许多常用的迁移学习算法进行了对比。
从上图可以看到,当目标领域内的有标签样本数目很少的时候,L2T 的表现遥遥领先,这说明 L2T 最为有效地迁移了两个领域内共有的知识,而且在样本很多时依然保持着优势。
为了验证“从经验学习”的有效性,作者们还设计了另一个实验。首先设定 L2T 要学习的迁移经验数目是1000条,然后用不同的以往算法生成这1000条经验供它学习,看看 L2T 的表现受经验影响情况如何。结果如下表。(表中内容有删减,原表格参见论文原文)
可以看到,随着使用的算法增多,L2T 的学习效果也越好(学到了更多情况,学到的反射函数 f 更强,迁移学习得更有效)。而且即便只用一种现有算法为 L2T 生成经验(ITL 与 DIP 两行)时,L2T 的学习效果也有大幅度提高(3个标记样本时,ITL 和 DIP 本身的表现分别为 1.0188 和 1.0875)。这有力地说明了“从经验学习”的巨大作用。
论文地址:https://arxiv.org/abs/1708.05629
AI 科技评论编译