机器之心原创
作者:邱陆陆
7 月 21 日、22 日,由 KDD China 主办,西南交通大学和京东金融承办的 KDD Summer School 暨 KDD Pre-Conference,「交通大数据智能」论坛在成都举行,多位知名数据挖掘领域专家以及 KDD 2018 国际会议录用论文的作者介绍了自己的工作以及各自领域的进展。
在会上,我们采访了 KDD 中国主席杨强,与他聊了聊他在金融领域进行的 AI 落地的工作,包括「联邦学习」这个试图在保护数据隐私、满足合法合规要求的前提下继续进行机器学习的新方法。同时,作为 KDD 中国主席,他也分享了当下的迁移学习领域的新进展和他对本届 KDD 大会的展望。
联邦学习:数据合规应该是深度学习解决方案的一部分
机器之心:您如今在关注哪些 AI 的研究或应用方向?在您看来,机器学习领域有哪些新的趋势?
我现在关注的一个趋势是如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,我们将这部分研究称为「联邦学习」(Federated Learning)。
开始联邦学习的契机是欧盟通过了「数据隐私保护条例」(General Data Protection Regulation,简称 GDPR)。GDPR 认定「个人数据神圣不可侵犯」,要求公司在使用数据前要先向用户声明模型的作用。这份条例的实行让许多大数据公司噤若寒蝉,不敢再互相交流数据了,这对于极度依赖数据的机器学习是一个巨大的挑战。
因此我们现在正在寻找比较正向的应对方法,思考如何把 GDPR 囊括在机器学习框架之内,而不是绕着它走。
联邦学习希望在不共享数据的前提下,利用双方的数据实现模型增长。
假设两家公司想要建立一个用户画像模型,其中部分用户是重合的。联邦学习的做法是,首先通过加密交换的手段,建立用户的识别符(identifier)并进行沟通,在加密状态下用减法找出共有的部分用户。因为关键用户信息并没有得到交换,交换的只是共有的识别符,因此这并不违反数据隐私保护条例。然后,双方将这部分数据提取出来,将各自拥有的同样用户的不同特征作为输入,迭代地进行训练模型、交换参数的过程。我们证明了给定模型参数,双方不能互相反推出对方拥有的、自己没有的特征,因此用户隐私仍然得到了保护。在不违反 GDPR 的情况下,双方的模型性能都得到了提高。
联邦学习相比于迁移学习的优点在于「无损失」。之前的迁移学习都是存在性能损失的,当模型从领域 A 迁移到领域 B,从模型中学到的一大部分关于 A 的知识全丢了,只有和 B 共享的一小部分保留下来,甚至会出现负迁移。然而联邦学习保证,两家公司的模型都比原来效果好。因此我们没有继续沿用迁移学习的名称,而是将其命名为「联邦学习」,意思是说,两家公司并没有联合成为一个「国家」,而是像不同的「州」一样,在一个「联邦政府」——进行信息与模型参数的加密交换的系统——的管理下,各自为政,同时获得成长。在联邦学习的基础上,我们还可以启发式地搭建迁移学习的能力。这样,在模型成长的基础上,做到举一反三的效果。这个总的模型叫做「联邦迁移学习」(Federated Transfer Learning)。
联邦学习是我们应对 GDPR 类事件的一个例子。在未来,我们面临的社会大众的要求和监管一定越来越严格,因此我们人工智能的从业者应该拥抱这些条例,将其内化为解决方案的一部分。如今机器学习最薄弱的环节其实并非算法结构不够丰富、准确率不够高,而是来自社会大众对人工智能的态度和制约。GDPR 不是个例,在未来,不同国家和地区的隐私保护条例会如雨后春笋般出现,在这样的背景之下,如果不作出改变和适应,机器学习的一个重要的假设:假设我们拥有足够多的数据,将不复成立。
因此我们希望机器学习学者除了关心算法的准确率、效率之外,也将思考的维度上升到管理与合规的角度。我们希望能带头建立金融领域协同建模的规范,让不同的企业受益于合规的联合建模链条,更乐于加入这个 AI 建模联邦,在遵守合规要求的同时享受数据福利,也让机器学习更健康地发展下去。
我近年关注的问题是 AI 的落地,因为如果 AI 一直不落地,大家都埋头写论文,那么这个泡沫最后就破了。
我个人选择在金融相关的领域来实现 AI 落地,其原因是金融提高效率的痛点很强烈。现在很多媒体给大家的一个印象是「所有的领域」都可以马上应用 AI,这我是不赞同的。在一些领域里,如今的 AI 反而会把优势变成劣势:例如 IBM Watson 在美国癌症医疗中心就因为数据缺失问题而导致诊断协助系统的失败。
我认为现在的情况是,并非所有领域都适合在当下尝试 AI,根据数据和场景的准备状态,有一些领域特别适合首先去尝试 AI,其中就包括金融。
此外,我希望总结出一套方法论,可以告诉人们,一个领域在什么时间段、满足哪些条件后,可以开始考虑使用 AI 了。
迁移学习:深度和对抗成为范式
机器之心:去年,您在机器之心的 GMIS 大会上提到了迁移学习的六个进展,分别是结构与内容分离、多层次的特征学习、多步迁移学习、学习「如何迁移」、迁移学习作为元学习以及数据生成式的迁移学习。在过去的一年多时间里,有哪些方向出现了令人瞩目的进展?
首先是层次感。这方面进展非常迅速。业界发现深度学习天然适合做迁移的学习,正是因为深度学习不同的层次负责编码不同的知识。
因此多层次的特征学习有很多种可行结构:一是多视角,让不同的输入分别进入不同的初始层,处理后共享一些中间层;另一种是利用对抗的结构,例如 GAN 和 DANN,筛出不同领域间可共享的特征。共享特征的意思是无法用这个特征区分两个领域。用对抗找出共享特征的意思是,让一个网络负责筛选出让对方区分不了的特征,让另一个网络负责根据特征区分两个领域,两个网络通过博弈达到平衡时,就自动找到了两个领域之间的重叠部分。
总的来说,对抗网络现在已经变成了迁移学习的一种已定式和系统了。
在学习如何迁移方面,我们最近有一篇 ICML 2018 文章,Transfer learning by learning to transfer 讲的就是这个问题。这个文章的第一作者是魏颖博士。文章的主旨是,在我们积累了在很多领域进行学习的经验后,把领域间的迁移过程作为例子。例如在翻译问题上,从日语到中文是一个迁移,从日语到英文是另一次迁移。如果有 N 个领域,就会有 近 N*N 个例子。把迁移的例子做成训练集,就可以训练出一个自动的迁移规划器,它会告诉你如何迁移或是说迁移的方法论。来了一个新问题,迁移器可以告诉你应该挑那些迁移学习算法来用在这个问题上。
这个问题的输入是算法的参数和描述不同领域的参数,优化函数是所有样本的期望损失最低,学出来的迁移器既挑选模型,也学习参数。这个工作的主题是「学习如何学习」,和时下流行的 AutoML 有紧密的联系。今年,「第四范式公司」会在 NIPS 2018 上将举办首届 AutoML 大赛,也是给大家一次展示迁移学习能力的机会。
「学习如何学习」也不仅仅是计算机科学中的问题。在心理学领域,上世纪美国心理学家 Thorndike 就拿猴子做了一个实验,证明猴子是有迁移能力的。他让猴子解决一些不同的任务,解决好了就能拿到食物,解决不好就让他继续解决,一段时间后,猴子就学会了在新的领域里寻找特征,利用原有的经验解决新问题。因此 Thorndike 总结道:「智能就是迁移能力。」他将这个观点应用到教育学上,认为教育程度高,并不是考试分数高,而是学下一门课学得更快。
最后,结构与内容分离,换言之,就是要用尽可能少的例子来学尽可能多的事儿,这方面的内容仍然不是很多。但这其实并不是局限于迁移学习的一个讨论,而是人工智能整体试图解决的一个问题。
最近 Yann Lecun 的在 IJCAI2018 上的一个讲座让我觉得很有启发。Yann 也在思考为什么人只需要几个例子,而深度学习需要那么多例子。他的观点是,一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann 描述的这个方法被业界称作「自监督学习」。
我觉得自监督学习可以和迁移学习结合来做的。因为一个样本毕竟还是有局限性,它的变化很小,统计性很差,但是如果和以前的经验能结合起来,例如从其他任务里迁移一个偏置项,可能就是解决小样本的一个方向。
机器之心:您如何对当前的迁移学习算法进行分类?原因是什么?
之前,我们通常将迁移学习分为三类。第一类是样本迁移,将可能对新领域有用的样本的权重加大。这一类方法非常经典,但是现在用得比较少。
第二种叫做特征迁移,特征空间的维度很高,如果我发现第一个领域里发现的重要特征能够覆盖新领域,那么我就把它迁移到新领域中去。迁移的部分可能是人工选出来的特征,这种方法在自然语言处理迁移中比较常见,也可以是一个特征提取器,这种方法在计算机视觉迁移中比较常见。
最后一种是参数迁移,迁移的范围与两个领域之间的距离有关。例如和图像相关的模型,越是靠下的层越通用,迁移能力越强,越是靠上的层越是特殊,迁移能力越弱。因此可以根据领域间距离定量地确定迁移的程度:如果两个领域相距很远,那么可以只迁移最下方的几层,如果两个领域很相似,则可以多迁移几层。此外还可以量化迁移后调节参数的时机:两个领域相距越远,参数调节就应该越早进行,两个领域相距越近,参数调节就可以越晚进行。
近年一个有意思的特征迁移案例是斯坦福大学为联合国做的「如何在卫星图片中标记贫穷的地区」。联合国在决定给每个地区分配的资助前,需要确定当地的贫穷程度。在过去,做法是派人去进行经济调查,而斯坦福大学试图用 跨越式迁移的方法来解决这个问题。研究人员首先对白天的卫星图片进行语义级别的分割,标出桥梁、建筑物等。然后以灯光明亮度代表富裕程度,通过白天和夜晚的图像比对,找出最富有的地区在白天有哪些可见的特征,比如游泳池。然后将游泳池视为富裕地区的显著特征后,再通过搜索游泳池周围经常出现特征,进行另一轮的代表性特征选择。逐步扩展下去,最后在识别贫富程度上达到和现场调查人员相近的准确率。
这类非常具有社会意义的选题也是值得国内研究者思考和借鉴的,我们不应该只擅长刷 ImageNet 榜单。
除此之外,根据采用的模型结构还可以分成采用/不采用深度学习的。近年随着对抗生成网络在迁移学习中的应用越来越广泛,还有一种分法是根据是否利用对抗的方法进行分类。迁移学习中天然存在可以对抗的部分:希望算法在本领域准确性尽可能高,希望算法在两个领域间的差距尽可能小。把这两个限制条件同时作为目标,就形成了一个恰恰合适对抗生成网络做的事情。
KDD:连接工作与会议趋势
机器之心:作为 KDD 中国主席,能否分享下 KDD 中国的定位和任务,以及 KDD 大会的一些情况?
ACM SIGKDD 在中国的分会叫做 KDD China,这个学术社区的主旨是做好各项「连接」的工作,即连接学生和学者,连接公司和学校,以及连接学界和社会。本次 2018 的暑期学校分成三天(已于 2018 年 7 月 21-23 在成都的西南交通大学举行),分别是业界专家观点、学生 2018 KDD 工作展示,以及学界的「大牛」讲解如何写论文、如何做研究。旨在进行学生与业界领袖的连接,工业与学术界的连接,国内和国外的连接等一系列工作。现在看来效果还是非常不错的,会员已经超过了 1000 人,本次活动报名的会员/非会员也达到了场地的极限,达到三百多人。
而即将在伦敦召开的 KDD 2018,颁发的奖项包括:
- Research Innovation Award,颁发给了芝加哥大学的刘兵教授,他率先开展了舆情分析方面的工作。
- Distinguished Service Award,颁发给了清华大学的唐杰教授,他在 KDD 领域做了大量的突出的服务性工作,包括在 2012 年在北京举行的 KDD 所做的大量支持工作和建立著名的论文库系统 A-MINER 等的工作。
- Test of Time Award,这个奖项颁发给发表在十年前的、产生了重大影响的文章。今年的获奖者是来自谷歌的 Yehuda Koren,获奖论文是关于推荐系统中的协同过滤问题。
在趋势方面,KDD 继续以信息网络的大数据为主题来研究,但 KDD 也在近几年开始举办以深度学习命名的一个 workshop,这也标志着深度学习也成为了 KDD 所接受的一类方法。
纵观 KDD 的历史,会发现发起者背景主要有二,一是来自工业界,比如曾经以 IBM 、微软等公司为代表一些领袖,二是学界的领军人物。切入角度是起始于数据仓库管理和关联规则等的分析;后来机器学习算法逐渐进入业界后,越来越多的机器学习学者也进入 KDD 界,而 KDD 一直保持有很高的工业界参与度以及对工业实际问题的敏感度。
如今 KDD 和机器学习的一些区别包括,KDD 是更多地以应用问题为导向的会议,很少有像强化学习等纯机器学习算法的论文;KDD 相比于机器学习更关心社交网络等信息网络数据,更关心「人」的参与建模,更在乎模型的可解释性、数据可视化、人对模型结论的理解等,而机器学习更关注自动化和端到端的建模。