AI 科技评论按:继 2017 年 8 月份首度联合发布开放学术图谱(Open Academic Graph, OAG),近日,清华大学和微软研究院再度携手将 OAG 更新为 2.0 版本并进行了发布。
OAG 2.0 版本下载网址:https://www.openacademic.ai/oag/
OAG 2.0 版本 VS 1.0 版本
于 2017 年开放的 OAG 1.0 版本,通过整合清华 AMiner 学术图谱的 154,771,162 篇学术论文的元数据和微软学术图谱(Microsoft Academic Graph, MAG)的 166,192,182 亿篇论文,生成了两个学术图谱之间近 64,639,608 对链接(匹配)关系。
OAG 1.0 版本
而相较 OAG 的 1.0 版本,2.0 版本的更新在于它在论文相关数据的基础上,增加了作者以及出版地点相关的数据,也就是说新发布的 2.0 版本包括了论文、作者、出版地点 3 类实体以及相应的匹配关系。
据悉,截止 2019 年 1 月,OAG 2.0版本包括约 7 亿实体数据和约 20 亿实体之间的链接关系,其中包括 AMiner 的 2.8 亿实体数据和 MAG 的 4 亿多实体。OAG v2 的统计数据如下面三张图表所示:
OAG论文数据统计,图片截止官网
OAG作者数据统计,图片截止官网
OAG出版地点数据统计,图片截止官网
由于 MAG 和 AMiner 两个学术图谱都在不断演变,在这三张图表中,OAG 2.0版本采用了 MAG 2018 年 11 月的快照和 AMiner 2018 年 7 月或 2019 年 1 月的快照。另外值得一提的是,在对于作者匹配,学者们只考虑了论文数不少于 5 的作者,并将论文数量较少的作者排除后,其中,AMiner 中有 6,855,193 位作者,MAG 中有 13,173,936 位作者。
面临的挑战
对于该上亿规模 OAG 的构建,无论是 1.0 版本还是最近更新的 2.0 版本,都存在着较大的挑战,其中包括:
- 数据 实体异构:在 1.0 版本中,由于数据分布在不同的数据源中,所以 OAG 面临着异构的数据问题。例如期刊或会议可能会使用全名或缩写。而在 2.0 版本中,除了要面临数据异构的挑战,OAG 还迎来了实体异构的挑战:OAG 2.0 中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如 Quoc Le 和 Le, Quoc;出版地点有全称或缩写等多种形式。
- 实体歧义:同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在 KDD 2016 中收集了两篇题为「robust influence maximization」的不同论文。
- 大规模匹配、计算:面对亿级数据集成,如何进行高效计算是 1.0 版本和 2.0 版本都要面对的巨大挑战。以已经公布的论文数据为例,AMiner 和 MAG 各自有约 1.7 亿和 2 亿篇论文,因此需要设计一个高效的匹配框架。
解决方案和评估结果
在 OAG 1.0 版本发布之际,雷锋网 AI 科技评论曾对清华大学副教授、Arnetminer 创始人唐杰博士进行了采访。采访中,当问到如何解决数据异构、同名歧义、大规模匹配和计算等问题时,唐杰博士提到他们设计了一个折衷方法:同时考虑精度和效率。据介绍,该算法将算法复杂度降低到 O(nlogn) 到 O(n2) 之间,目前每天能够完成约 2 千万篇论文的匹配,基本完成了合计 3 亿篇论文的自动匹配,并保证了高匹配精度:
具体来说,我们设计了一个针对大规模论文匹配的异步搜索框架。对于 AMiner 中的每篇论文,我们根据题目在MAG中搜索可能匹配的论文,每次搜索的时间在几百毫秒到几秒不等。通过异步搜索的策略,可以做到平均每秒搜索到 20 余篇论文,使得大规模的图谱链接可以达到较快的速度。
另外,为了进一步提高自动集成速度,他们还尝试了两个新的匹配算法 MHash 和 MCNN。
MHash是利用哈希算法,将每篇论文转化为一串二值编码,计算两篇论文之间的汉明距离。由于使用了哈希,该算法速度很快,但同时精度也有所降低,大概能保持 93 % 的匹配准确率。MCNN是基于卷积神经网络的深度学习方法,MCNN 基于单词之间的相似度构造两篇论文的相似矩阵,然后利用卷积神经网络来捕捉文本之间的相似模式。
同时,唐杰博士还提到在实际的操作过程中,该方法也可以缓解数据异构的问题。如:对于作者Quoc Le 和Le, Quoc,它们对应位置上的单词是不相似的,但是在相似矩阵中可以捕捉不对应位置上单词的相似度。最终结果显示,该方法可以达到非常高的匹配准确率(98% )。另外,这两个论文匹配算法均结合了论文的多个属性,如题目、作者等减轻同名消歧问题。
而对于增加了 2 个实体 OAG 2.0 版本来说,要应对这些挑战更是难上加难,对此,学者们在沿用哈希算法、神经网络深度学习等方法的同时,也尝试结合这些算法以及不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(论文、作者和出版地点)。学者们评估了少部分匹配关系(大约 1,000 个论文/作者/出版地点匹配对),得出了相对应的匹配准确率:其中论文最新的匹配准确率为 99.10%;作者的匹配准确率为 97.41%;出版地址的匹配准确率为 99.26%。
实体匹配准确率,图片截止官网
OAS 介绍
OAG 是开放学术组织(Open Academic Society, OAS)的一个重要项目,OAS 是一个由微软,清华,艾伦人工智能研究所,亚利桑那大学,华盛顿大学,加州大学洛杉矶分校和澳大利亚国立大学等全球 20 个机构组成的促进开放学术资料共享、加强学术交流与合作的联盟。OAG 旨在整合全球学术知识图谱,公开共享学术图谱数据,并提供相关学术搜索和数据挖掘服务。
具体来说,OAS 的主要功能包括:
- 整合丰富的学术知识数据:目前,OAG 的核心数据来自 MAG 和 AMiner,下一步将会整合另外的学术数据,包括不同类型的实体的语义数据。另外,数据集成和数据挖掘算法也会将更多的实体链接到更精确更丰富的数据(包括元数据、概念网络、研究领域、全文和作者个人信息)上。
- 数据共享:通过分享不同的学术知识地图及其链接,我们希望能够促进知识图谱、学者合作关系、学术主题挖掘等领域的学术研究。
- 服务共享:希望设计更智能的学术图谱连接系统,并提供相关服务(如 API),以鼓励更多的人使用该服务并加入开放学术组织。
资料参考自:学术头条,《清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”》