作者 | 陈大鑫
编辑 | 陈彩娴
第 26 届 ACM SIGKDD 知识发现和数据挖掘会议(KDD 2020)将于太平洋标准时间 8 月 23 日 - 27 日以虚拟线上方式召开。今日KDD 2020公布了最佳论文奖、最佳学生论文奖等多个奖项。
其中最佳论文奖由谷歌研究院的Walid Krichene和Steffen Rendle摘得,最佳学生论文奖由杜克大学的 Ang Li、Huanrui Yang、陈怡然和北航段逸骁、杨建磊获得。此外,汤继良、盛胜利、唐杰等华人学者在本届 SIGKDD 大会上也荣获了包含新星奖、时间检验研究奖、时间检验应用科学奖在内的三项大奖。
1
最佳论文奖
最佳论文奖由来自谷歌研究院的Walid Krichene和Steffen Rendle获得,获奖题目为《On Sampled Metrics for Item Recommendation》
论文链接:http://walid.krichene.net/papers/KDD-sampled-metrics.pdf
KDD官网:https://www.kdd.org/kdd2020/accepted-papers/view/on-sampled-metrics-for-item-recommendation
论文摘要:
项目推荐的任务需要在给定上下文的情况下对大量的项目进行排序。项目推荐算法是使用依赖于相关项目位置的排名指标来评估的。为了加速度量的计算,最近的工作经常使用抽样的度量,其中只有一组较小的随机项和相关项被排序。
本文对抽样指标进行了更详细的研究,发现它们与精确的度量值不一致,因为它们没有保留相关的语句,例如,说推荐者A优于B时甚至连期望值也没有。而且,抽样规模越小,指标之间的差异就越小,另外对于非常小的抽样规模,所有指标都会坍缩为AUC度量。
我们证明了通过应用一个修正项来提高抽样指标的性能是可行的:通过最小化不同的标准,如偏差或均方误差。最后,我们对原始抽样指标及其修正变量进行了实证评估。综上所述,我们建议在度量计算中应避免抽样,但是如果实验研究需要抽样,那么我们所提出的修正项可以提高估计的质量。
2
最佳学生论文奖
获奖论文:《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》
论文第一作者 Ang Li 是杜克大学电子和计算机工程系的一名在读博士,导师为陈怡然和 Hai "Helen" Li 教授。Ang Li 曾在2013 年获得北京大学软件工程硕士学位,2018 年获得阿肯色大学计算机科学博士学位。
今日陈怡然教授在微博上庆祝:
陈怡然教授本硕均就读于清华大学,博士就读于美国普渡大学,现任杜克大学电子与计算机工程系教授、杜克大学计算进化智能中心主任、美国 NSF 新型可持续智能计算中心主任。
论文链接:https://arxiv.org/abs/2005.11480.pdf
KDD官网:https://www.kdd.org/kdd2020/accepted-papers/view/tiprdc-task-independent-privacy-respecting-data-crowdsourcing-framework-for
论文摘要:
深度学习的成功部分得益于各种大规模数据集的可用性。这些数据集通常来自个人用户,并且包含诸如性别、年龄等隐私信息。用户对数据共享的隐私担忧阻碍了众包数据集的生成或使用,并导致对新的深度学习应用程序的训练数据的渴求。
一个自然的解决方案是在用户端对原始数据进行预处理以提取特征,然后只将提取的特征发送到数据采集器。不幸的是,攻击者仍然可以利用这些提取的特征训练对抗分类器来推断私有属性。一些现有技术利用博弈论来保护私有属性。然而,这些防御措施是针对已知的初级学习任务设计的,提取的特征对于未知的学习任务效果不佳。
为了解决学习任务未知或变化的情况,我们提出了一种基于匿名中间表示的任务无关隐私的数据众包框架TIPRDC。该框架的目标是学习一个特征抽取器,它可以隐藏中间表征中的隐私信息,同时最大限度地保留原始数据中嵌入的原始信息,供数据采集器完成未知的学习任务。
我们设计了一种混合训练方法来学习匿名中间表示:(1)针对特征隐藏隐私信息的对抗性训练过程;(2)使用基于神经网络的互信息估计器最大限度地保留原始信息。我们广泛地评估了TIPRDC,并将其与使用两个图像数据集和一个文本数据集的现有方法进行了比较。我们的结果表明,TIPRDC大大优于其他现有的方法。我们的工作提出了第一个任务独立隐私尊重数据众包框架。
3
最佳论文奖亚军
来自弗吉尼亚大学的 Mengdi Huai、Jianhui Sun、Renqin Cai、Aidong Zhang 和来自纽约州立大学布法罗分校的 Liuyi Yao 获得了最佳论文奖的亚军,获奖论文是《Malicious Attacks against Deep Reinforcement Learning Interpretations》。
深度学习和强化学习(RL)的结合,并证明了其在众多顺序决策问题中对动力学建模的能力。为了提高透明度,已经提出了用于DRL的各种解释方法。但是,这些DRL解释方法隐式地假定它们是在可靠和安全的环境中执行的,在实际应用中并非如此。弗吉尼亚大学团队调查了恶意环境中DRL解释方法的漏洞。具体而言,引入了针对DRL解释的对抗性攻击的第一项研究。提出了一个优化框架来解决研究的对抗攻击。
论文链接:https://dl.acm.org/doi/pdf/10.1145/3394486.3403089
KDD 官网:https://www.kdd.org/kdd2020/accepted-papers/view/malicious-attacks-against-deep-reinforcement-learning-interpretations
论文摘要:
近年来,深度强化学习(DRL)得到了迅速的发展,它是深度学习和强化学习(RL)相结合的产物。然而,深度神经网络的采用使得DRL决策过程不透明,缺乏透明度。
基于此,人们提出了各种DRL解释方法。然而,这些解释方法隐含着一个假设,即它们是在可靠和安全的环境中执行的。在实践中,顺序agent-环境交互将DRL算法及其相应的下游解释暴露在额外的对抗性风险中。
尽管恶意攻击盛行,但目前还没有研究针对DRL解释的恶意攻击的可能性和可行性。为了弥补这一差距,本文研究了DRL解释方法的脆弱性。具体来说,我们首先介绍了针对DRL解释的对抗性攻击的研究,并提出了一个优化框架,在此基础上可以得到最优的对抗攻击策略。此外,我们还研究了DRL解释方法对模型中毒攻击的脆弱性,并提出了一个算法框架来严格描述所提出的模型中毒攻击。最后,我们进行了理论分析和大量实验,以验证所提出的针对DRL解释的恶意攻击的有效性。
这篇论文将深度学习和强化学习结合(DRL),并证明了其在众多序列决策问题中动态建模的能力。为了提高模型的透明度,已经有研究提出了针对 DRL 的各种解释方法。但是,这些 DRL 解释方法隐式地假定它们是在可靠和安全的环境中执行的,但在实际应用中并非如此。弗吉尼亚大学的研究团队调查了一些 DRL 解释方法在恶意环境中的漏洞。具体而言,他们提出了第一个针对 DRL 解释的对抗性攻击的研究,提出了一个优化框架来解决所研究的对抗性攻击问题。
4
创新奖
Thorsten Joachims,康奈尔大学计算机科学与信息科学教授,美国计算机协会、美国人工智能学会院士,因其在机器学习方面的研究贡献而受到认可,包括在信息检索,支持向量机(SVM)和结构化输出预测方面研究人类偏见的有影响力的工作。
值得注意的是,Joachims开创了从隐式反馈中引出可靠偏好的方法,无偏向学习排名方法和提供公平保证的排名方法。ACM SIGKDD创新奖是知识发现和数据挖掘领域技术卓越的最高荣誉。它授予个人或团体合作者,他们的杰出技术创新极大地影响了该领域的研究和开发方向。
Joachims表示:“我很荣幸获得KDD社区的认可。” KDD以创新而著称-不仅是学术上的努力,而且着眼于现实世界的影响和社会福利。
Joachims个人主页:
http://www.cs.cornell.edu/people/tj/
值得一提的是,Joachims与他的学生和合作者一起发表过的论文在各大顶会共获得了9项最佳论文奖和4项时间检验奖,其中就包括在今年国际信息检索研究与发展(SIGIR 2020)年会上,Thorsten Joachims团队获得了最佳论文奖:
AI科技评论之前对此篇论文做过专门解读:《SIGIR 2020最佳论文解读出炉,可缓解排名问题的马太效应?》,有兴趣的读者可以移步看看。
5
服务奖
Michael Zeller ,淡马锡(Temasek)人工智能战略与解决方案负责人,因致力于在ACM SIGKDD担任志愿司库和执行委员会秘书而在该领域做出的杰出贡献而感到荣幸。
Zeller在执行董事会任职八年,在策划多个KDD会议中发挥了重要作用。作为执行委员会成员,他特别重视应用人工智能,其使命是促进研究机构与行业组织之间的牢固合作关系,这是KDD社区持续成功的关键。ACM SIGKDD服务奖是该领域所授予服务的最高认可。
Zeller说:“作为ACM SIGKDD的长期会员,我一直对我们的志愿者的贡献印象深刻。如果没有他们对我们使命的奉献和信念,我们将永远无法建立这样一个充满活力的数据科学社区,更不用说年复一年地组织如此规模和质量的会议了。”
个人主页:
https://www.linkedin.com/in/michaelzeller/
6
论文奖
ACM SIGKDD论文奖表彰了研究生在数据科学,机器学习和数据挖掘领域所做的杰出工作。
Rediet Abebe 是加州大学伯克利分校计算机科学系新任助理教授,她的博士论文获得了今年的ACM SIGKDD学位论文奖。
Abebe是第一位入选哈佛研究员学会的女性计算机科学家,并与他人共同创立了社会公益机制设计(MDSG),这是一个多机构倡议,旨在改善历史悠久,服务水平低下的弱势社区的机会。
个人主页:https://www.cs.cornell.edu/~red/
其获奖论文为《Designing Algorithms for Social Good》。
论文链接:
https://www.cs.cornell.edu/~red/AbebeDissertation.pdf
论文摘要:
算法和人工智能技术显示出巨大的潜力,可以加深我们对社会经济不平等的理解,并为旨在改善获得机会的干预措施提供信息。针对历史上服务不足的社区的干预措施尤其具有挑战性,因为众所周知劣势和不平等是多方面的难以衡量的,并通过基础结构中的反馈循环加以强化。
虽然这些领域已经取得了长足的进步,从公立学校的席位分配到贫困地图绘制,但仍有许多领域有进一步贡献的重大机会,而且我们有可能开发出统一的框架,将计算机算法应用于改善社会福利。
在这篇论文中,我们发展了算法和计算技术,通过两种干预措施来解决这些问题:一种是分配稀缺的社会资源,另一种是改善获取信息的方式。我们研究了算法、离散优化、机制设计、网络和计算科学等领域的技术如何应对不同形式的不利因素,包括易受收入冲击、社会隔离和获取健康信息方面的差异。我们强调计算机在社会变革中发挥作用的机会。
最后,我们将围绕算法、优化和机制设计的使用,围绕一个新兴研究领域的开放性问题——社会公益机制设计展开讨论。
- 学位论文奖亚军(runner-up)
加利福尼亚大学圣地亚哥分校的计算机科学助理教授Jingbo Shang以其论文《Constructing and Mining Heterogeneous Information Networks from Massive Text 》获得亚军(runner-up)。
论文链接:
http://hanj.cs.illinois.edu/pdf/kdd19_jshang.pdf
论文摘要:
真实世界的数据主要以非结构化文本的形式存在。数据挖掘研究面临的一个重大挑战是开发有效的、可伸缩的方法,将非结构化文本转化为结构化知识。基于我们的设想,将这些文本转化为结构化的异构信息网络,在这种网络上可以根据用户的需要生成可操作的知识。在本论文中,我们将全面概述此方向的最新研究和开发。
首先,我们介绍了一系列从海量、特定领域的文本语料库构建异构信息网络的有效方法。然后讨论了基于用户需求的文本丰富网络的挖掘方法。具体地说,我们关注于可伸缩的、有效的、弱监督的、与语言无关的方法,这些方法适用于各种文本。我们进一步在真实的数据集(包括新闻文章、科学出版物和产品评论)上演示如何构建信息网络,以及它们如何帮助进一步的探索性分析。
7
新星奖
今年是KDD第一届设立KDD年度新星奖(Rising Star Award),该奖项的设立旨在庆祝SIGKDD社区最聪明的新思想的早期成就以及表彰KDD社区里在博士毕业五年内便获得卓越科研成就的年轻学者。
今年一共有两位学者获得,分别是Danai Koutra(Morris Wellman)和汤继良(Tang Jiliang)。
汤继良教授来自密歇根州立大学数据科学与工程实验室(Data Science and Engineering Laboratory),他的杰出工作包括对表示学习的研究,尤其是图形及其在互联网和社交媒体领域的应用。汤教授获得该荣誉的主要原因在于他在特征学习(尤其是图和图在网络、社交媒体和智能教育上的应用)领域所取得的杰出成就。
个人主页:http://www.cse.msu.edu/~tangjili/
另外,AI科技评论曾有幸对汤继良教授进行了专访,并与汤老师交流他的科研故事,希望能为青年学子、尤其是正在迷茫中不知出路的年轻人树立一个榜样:《汤继良:从小镇走出来的KDD科研新星 | 专访 》
第二位获奖人Danai Koutra(Morris Wellman)在密歇根大学计算机科学与工程系的任助理教授,她在大规模数据挖掘中的研究集中于用于网络汇总和多网络分析的有原则、可解释和可扩展的方法。
她利用网络内部数据之间的固有联系,了解世界数据中的未知数据。这些连接自然以网络或图形建模,而网络或图形又跨越了我们生活的方方面面:电子邮件通信网络,用于网络搜索的知识图,社交网络,共同作者图,大脑网络,人工神经网络等。她的工作通过提供简洁明了的网络摘要来利用这些数据的大规模,异质性和复杂性,以此作为一种方式:(a)加快后续分析和仅适用于较小的代表性数据的方法;(b)了解底层流程,并通过消除手动筛选大量数据的负担来为我们的决策提供信息;(c)提供对科学数据的见解,产生新的假设。
个人主页:https://web.eecs.umich.edu/~dkoutra/
8
时间检验研究奖
SIGKDD的时间检验奖表彰了至少已发表十年的杰出KDD论文,这些论文对数据挖掘研究界产生了持久影响,并继续被人们视为新的研究分支的基础。今年,时间检验研究奖( Test of Time Award for Research)获得者是Victor S. Sheng,Foster Provost和Panagiotis Ipeirotis:
获奖论文为2008年同行评审论文:
《Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers 》
论文链接:
http://crowdsourcing-class.org/readings/downloads/econ/get-another-label.pdf
论文摘要:
本文讨论了当标签不完善时,数据项标签的重复获取问题。我们考察了通过重复标记在数据质量方面的改进(或不足),特别是针对监督归纳的训练标签的改进。随着小任务的外包变得越来越容易,例如通过Rent-A-Coder或亚马逊的Mechanical Turk,通常可以以低成本获得不太专业的标签。使用低成本标记,准备未标记的数据部分可能会比标记成本高很多。
我们提出了增加复杂性的重复标记策略,并给出了几个主要结果:
1、 重复标记可以提高标签质量和模型质量,但并不总是这样。
2、当标签嘈杂时,即使在标签并不特别便宜的传统环境中,重复标签也比单一标签更好。
3、一旦处理未标记数据的成本不是免费的,即使是多次标记所有内容的简单策略也可以带来相当大的优势。
4、反复标记一组精心选择的点通常是可取的,我们提出了一种稳健的技术,可以结合不同的不确定性概念来选择质量应提高的数据点。
底线:结果清楚地表明,当标签不完美时,有选择地收购多个标签是数据挖掘者的一种策略;对于某些标签质量/成本制度,好处是巨大的。
9
时间检验应用科学奖
今年是首届应用科学时间测验奖(Test of Time Award for Applied Science)SIGKDD颁发了该奖项,以表彰在数据科学的实际应用中具有影响力的研究。唐杰、李娟子等人凭借他们在2008年发表的关于学术社会网络挖掘的研究成果获得了该奖。
唐杰目前为清华大学计算机科学与技术系长聘教授,计算机系副主任、清华-工程院知识智能联合实验室主任。
获奖论文:《ArnetMiner: Extraction and Mining of Academic Social Networks 》
论文链接:
https://static.aminer.org/upload/pdf/985/1447/1704/53e9a5afb7602d9702edacce.pdf
论文摘要:
本文讨论了ArnetMiner系统中的几个关键问题,该系统旨在提取和挖掘学术社交网络。
具体而言,该系统侧重于:
1、 从Web上自动提取研究人员的个人资料;
2、 将现有数字图书馆出版数据整合到网络中;
3、 对整个学术网络进行建模;
4、为学术网络提供搜索服务;
到目前为止,已经使用统一的标记方法提取了448470名研究人员的个人资料。我们整合了来自网络数据库的出版物,并提出了一个概率框架来处理名称模糊问题。
此外,我们提出了一个统一的建模方法来同时对论文、作者和出版物的主题方面进行建模。基于建模结果提供了专家检索、人员关联搜索等搜索服务。本文介绍了该系统的体系结构和主要特点。我们还对所提出的方法进行了实证评价。