ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的最高级别的学术会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为 A 类会议。
自 1995 年以来,KDD 已经连续举办了二十余届大会,今年是第 26 届。今年的 KDD 大会原定于2020 年 8 月 23 日 ~27 日在美国美国加利福尼亚州圣地亚哥举行。而由于疫情影响,本次大会将以线上形式举行。
前两个月,KDD 2020 官方发布接收论文,共有1279篇论文提交到Research Track,共有216篇接受,接受率16.8%。而在去年,Research track 共收到约 1200 篇论文投稿,其中约 110 篇被接收为 oral 论文,60 篇被接收为poster 论文,接收率仅为 14%。今年的接收率有所提升。
1
论文主题 Top 5
AMiner 统计的会议论文数据显示,本次会议的热点话题有图神经网络,图嵌入,推荐,表示学习等。
投稿排名前五的主题为:
- 图神经网络:15 篇
- 图形:13 篇
- 图嵌入:9 篇
- 推荐:7 篇
- 表示学习:6 篇
让我们看看热门主题中那些引用量最高的文章:
1、图神经网络
论文标题:Connecting the Dots:Multivariate Time Series Forecasting with Graph Neural Networks
论文链接:https://www.aminer.cn/pub/5ecce8ec91e0119170395ba4/
长期以来,多元时间序列建模一直是经济学、金融学、交通学等多个领域的研究者关注的课题。多元时间序列预测背后的一个基本假设是其变量相互依赖,但仔细观察,可以说现有的方法未能充分利用变量对之间潜在的空间相关性。近年来,图神经网络(GNNs)在处理关系依赖方面表现出了很高的能力。GNNs需要定义良好的图结构来进行信息传播,这意味着它们不能直接应用于依赖关系未知的多元时间序列。本文提出了一个专门针对多元时间序列数据设计的通用图神经网络框架。该方法通过一个图学习模块自动提取变量间的单向关系,可以方便地将变量属性等外部知识集成到其中。进一步提出了一种新的混合跳传播层和扩展的起始层来捕获时间序列中的空间和时间相关性。图学习、图卷积和时间卷积模块在端到端框架中联合学习。实验结果表明,本文提出的模型在4个基准数据集中有3个优于现有的基线方法,并且在提供额外结构信息的两个交通数据集上取得了与其他方法相同的性能。
2、嵌入
论文标题:InfiniteWalk: DeepNetwork Embeddings as Laplacian Embeddings with a Nonlinearity
论文链接:https://www.aminer.cn/pub/5ed623d091e01198019af96f/
作者提出了将无限窗口极限下的DeepWalk与具有非线性的经典谱嵌入相结合的观点。
作者讨论了这一观点如何阐明窗口大小参数T在DeepWalk中的作用,并提出了一种基于图Laplacian伪逆的二值阈值的非常简单的嵌入技术。
3、推荐
论文标题:Controllable Multi-InterestFramework for Recommendation
论文链接:https://www.aminer.cn/pub/5ec48cc4da5629efe0884e02/
近年来,随着深度学习的迅速发展,神经网络在电子商务推荐系统中得到了广泛的应用。本文将推荐系统形式化为一个顺序推荐问题,目的是预测用户可能与之交互的下一个项目。最近的研究通常从用户的行为序列中给出一个整体的嵌入。但是,一个统一的用户嵌入不能反映用户在一段时间内的多重兴趣。在这篇文章中,作者提出了一个新的可控的多兴趣序列推荐框架ComiRec。本文的多兴趣模块从用户行为序列中获取多个兴趣,可用于从大规模项目池中检索候选项目。然后将这些项输入聚合模块以获得总体建议。聚合模块利用一个可控因素来平衡推荐的准确性和多样性。作者在亚马逊和淘宝两个真实数据集上进行了序列推荐实验。实验结果表明,与现有模型相比,本文的框架取得了显著的改进。本文的框架也已经成功部署到离线的阿里分布式云平台上。
2
中国机构及华人学者表现亮眼
就本次会议投稿数量来看,阿里巴巴团队与清华大学分别以25篇及20篇的成绩位居第一、第二。紧随其后的是微软(17),伊利诺伊大学(17)及谷歌(16)。而腾讯,百度,滴滴出行,京东,华为等中国大型科技公司与北京大学,浙江大学,中国科学技术大学,北航等国内高等学府均有超过5篇的投稿。
投稿排名前十的机构为:
- 阿里巴巴:25 篇
- 清华大学:20 篇
- 微软:17 篇
- 伊利诺伊大学香槟分校:17 篇
- 谷歌:16 篇
- 康奈尔大学:11 篇
- 腾讯:10 篇
- 百度:9 篇
- 亚马逊:8 篇
数据统计来源:AMiner
可以看出论文投稿量排名前十的研究机构中,中国有4所机构上榜,在数据挖掘领域有着不可忽视的影响。
根据统计,大部分论文属于1~3个机构,其中“AutoKnow: Self-DrivingKnowledge Collection for Products of Thousands of Type"来自6个机构:亚马逊,马萨诸塞大学阿默斯特分校,哥伦比亚大学,伊利诺伊大学香槟分校,纽约州立大学布法罗分校,卡耐基梅隆大学。是从属机构最多的论文,同时也是作者数最多的论文,有22名共同作者。
数据统计来源:AMiner
按单篇论文作者数来看,每篇论文作者数量集中在3~6名。
数据统计来源:AMiner
在接收的论文中,估计有1478名作者参与了写作,大部分作者仅有1~2篇的论文投稿,而华人学者创作活跃,投稿数最多及排名靠前的作者均为华人。
其中,伊利诺伊大学香槟分校的华人学者Jiawei Han 有 7篇入选,位列第一,来自阿里巴巴的HongxiaYang,清华大学的Peng Cui,新泽西州立大学的HuiXiong,以6篇论文并列位于投稿第二名,投稿数量排名前十的也均为华人华人学者,可以看出华人在此领域的活跃度之高。让我们一睹他们的风采吧!
- 华人学者
1. Jiawei Han(韩家炜)
韩家炜教授一直在研究数据挖掘、信息网络分析、数据库系统和数据仓库,拥有900多份期刊和会议出版物。在大多数数据挖掘和数据库会议中,他曾主持或服务于许多国际会议的项目委员会。
他是ACM的研究员,IEEE的研究员,并获得了2004年ACM SIGKDD创新奖,2005年IEEE计算机协会技术成就奖和2009年M.WallaceMcDowell奖。他合著的《数据挖掘:概念与技术》一书已被世界各地广泛采用。
2. Hongxia Yang(杨红霞)
作者的研究兴趣涵盖了贝叶斯统计、时间序列分析、时空建模、生存分析、机器学习、数据挖掘及其在商业分析和大数据问题中的应用。目前在杭州阿里巴巴担任高级职员数据科学家和总监。
3. Peng Cui(崔鹏)
崔鹏是清华大学副教授。他的研究兴趣包括因果正则化机器学习、网络表示学习和社会动力学建模。他在数据挖掘和多媒体领域的著名会议和期刊上发表了100多篇论文。他最近的研究获得了IEEE多媒体最佳部门论文奖、SIGGDD 2016最佳论文决赛、ICDM 2015最佳学生论文奖、SIGGDD 2014最佳论文决赛、IEEE ICME 2014最佳论文奖、ACM MM12大挑战多式联运奖和MMM13最佳论文奖。他是CIKM2019和MMM2020的PC联合主席,WWW、ACM Multimedia、IJCAI、AAAI等的SPC或区域主席,以及IEEETKDE、IEEE TBD、ACM TIST和ACM TOMM等的副主编。2015年获得ACM中国新星奖,2018年获得CCF-IEEECS青年科学家奖。他现在是IEEE的高级成员和ACM的成员。
4. Hui Xiong(熊辉)
熊博士的主要研究领域是数据和知识工程,重点是为新兴的数据密集型应用开发有效和高效的数据分析技术。他的研究得到了美国国家科学基金会(NSF)、IBM research、SAPCorporation、Panasonic USA Inc.、AwarepointCorp.、Citrix Systems Inc.和罗格斯大学的部分支持。他曾在相关期刊和会议记录上发表过大量文章,如《IEEE知识与数据工程学报》、《VLDB期刊》、《计算、机器学习、IEEE移动计算事务》(TMC)和ACMSIGKDD国际知识发现与数据挖掘会议(KDD)。他的著作《地理信息系统百科全书》(Encyclopedia of GIS)被公认为中国学者在斯普林格大学(Springer)撰写的十大最受欢迎的计算机科学书籍。
5. Xia Hu
Xia Hu是德州农工大学计算机科学与工程的助理教授,目前在塔姆指导数据(德克萨斯州A&M的数据分析)实验室。在数据实验室,他致力于开发具有理论特性的数据挖掘和机器学习算法,以更好地从大规模、网络化、动态和稀疏的数据中发现可操作的模式。他的研究直接受到社会信息学、健康信息学和信息安全领域应用的推动和贡献。团队的工作已经在以下新闻媒体上报道过,包括ACM TechNews、New Scientist、Defense One、Business Insider、Economic Times等。
- 华人一作
不仅华人明星学者在本届KDD表现优异,以下多位华人学生也作为学术新星以第一作者身份发表多篇论文。
1. Chengxi Zang(臧承熙)
臧承熙是威尔康奈尔医学院的博士生,专注于挖掘、建模和学习复杂社会和生物系统。目前的重点是由人工智能和大量化学数据驱动的药物发现。方法是从数据挖掘,网络科学和机器学习
2. Hongyang Gao
Hongyang Gao目前是德州农工大学计算机科学与工程系三年级博士生。导师是博士Shuiwang Ji。
3. Zheyan Shen
Zheyan Shen目前是清华大学计算机科学技术系的博士生,他的研究方向包括因果推理、选择偏差下的稳定预测和机器学习的可解释性。
4. Yu Meng(孟瑜)
孟瑜是伊利诺伊大学香槟分校的博士生,他特别热衷于开发无监督和弱监督的文本挖掘技术,以组织和探索文本数据。目前从事数据挖掘、自然语言处理和应用机器学习的交叉点。从长远来看,他的研究致力于从大规模文本数据中挖掘结构化知识。
5. Yaqing Wang
Yaqing Wang是美国纽约州大学布法罗分校的博士生,他对数据科学和人工智能非常感兴趣,主要研究数据挖掘和机器学习。特别是数据集成、信息可信度评估、知识图、自然语言处理、元学习和生成模型等。
更多关于论文、作者、华人学者、一作华人学生、论文 PPT 和视频的详细信息,可参考:https://www.aminer.cn/conf/kdd2020。