迁移学习中的负迁移:综述

2020-11-11 14:52:11 浏览数 (1)

导读

迁移移学习(TL)试图利用来自一个或多个源域的数据或知识来促进目标域的学习。由于标记成本、隐私问题等原因,当目标域只有很少或没有标记数据时,它特别有用。

不过,TL的有效性并不总是得到保证。负迁移(NT),即源域数据/知识导致目标域学习性能下降,是TL中一个长期存在且具有挑战性的问题,文献中提出了各种克服负迁移的方法。本文从源数据质量、目标数据质量、域差异和集成算法四个方面对近100种对抗NT的方法进行了分类和回顾,填补了这一空白。本文也讨论了相关领域的NT,如多任务学习、多语言模式和终身学习。

今天介绍的是华中科技大学伍冬睿教授团队关于迁移学习中的负迁移领域进行的一个综述。虽然这篇综述的主要内容讲述的是迁移学习与负迁移的研究进展,然而将迁移学习应用于脑机接口、脑电数据处理时也必须考虑到训练和测试样本往往来自不同分布的问题。关于脑机接口中的迁移学习综述可以查看:《华中科技大学伍冬睿教授:非侵入式脑机接口中的迁移学习综述(2016-2020)》、《伍冬睿教授:脑机接口中迁移学习的完整流程》、《脑机接口中的流形嵌入知识迁移学习》等。

传统机器学习的一个基本假设是训练和测试数据来自同一个分布。然而,在 现实应用中这个假设往往不能满足。比如,两个图像数据库可能是用不同的相机在不同光照条件下采集的;脑机接口中的被试往往具有很大的个体差异。所以,从训练集上获得的模型在测试集上的泛化能力往往不好。

一个直观的解决办法是重新采集跟测试集样本分布相同的大量带标注样本,然后从中训练一个有监督机器学习模型。然而,现实应用中并不能总是获得这样的大量带标注样本,比如因为标注成本高、隐私考虑等。

更好的解决办法是使用迁移学习,即使用源域的数据或信息来帮助目标域的学习。这样,目标域只需要很少或完全不需要带标注样本。

然而,迁移学习并不总是有效的,除非其基本假设都得到满足:

  1. 源域和目标域的学习任务相似或相关;
  2. 源域和目标域数据分布比较接近;
  3. 存在一个源域和目标域同时适用的模型。

当这些假设不满足时,负迁移就会产生,即使用源域的数据或知识反而会让学习性能变差,不如直接用目标域的数据进行训练,如下图所示:

可靠的迁移学习需要同时考虑3个问题:

  1. 迁移什么?
  2. 如何迁移?
  3. 何时迁移?

然而大多数迁移学习研究只考虑了前2个问题。

尽管负迁移是个很常见和严重的问题,人们也提出了很多克服负迁移的方法,但是目前并不存在关于负迁移的详尽的综述。研究人员在最近的这篇综述文章里填补了这个空白。

研究者从4个方面系统性地归类和总结了近100种不同的克服负迁移的方法:源域数据质量,目标域数据质量,域间差异,集成性的算法。下图对上述提到的4个方面进行了概况:

更多具体的内容,可以查看对应的文章。

论文信息

Overcoming Negative Transfer: A Survey

编辑:邹思

文章来源于网络,仅用于学术交流,不用于商业行为

若有侵权及疑问,请后台留言,管理员即时删侵!

0 人点赞