导读
论文:
Representation Learning for Attributed Multiplex Heterogeneous Network
任务:
针对考虑属性的复杂异构图的图表示学习
本文:
提出GATNE模型
机构:
清华大学、阿里达摩院
代码:
https://github.com/cenyk1230/GATNE
发表:
KDD 2019
一、动机
「图的embedding表示」在真实世界中已经有了非常大规模的应用,然而现存的一些图嵌入相关的方法主要还是集中在同构网络的应用场景下,即节点和边的类型都是单一类型的情况下。
但是,真实世界网络中每个节点的类型都多种,每条边的类型也有多种,而且每一个节点都具有不同且繁多的属性(异构网络)。
因此,
本论文提出了一种在Attributed Multiplex Heterogeneous Network(考虑属性的复杂异构图)中进行embedding学习的统一框架,还在Amazon, YouTube, Twitter, and Alibaba数据集上进行了大量的实验。
实验结果表明 利用此框架学习到的embedding有惊人的性能提升 F1 scores可提高5.99-28.23%
而且该框架还成功地部署在全球领先的电子商务公司阿里巴巴集团的推荐系统上。
二、什么是考虑属性的复杂异构图
图有哪些分类方式呢?
- 节点类型(Node Type)表格第三列):单一类型 / 多类型
- 边类型(Edge Type)第四列):单一类型 / 多类型 & 有向边 / 无向边
- 特征属性(Attribute)最右侧列):带属性 / 不带属性
根据以上几种分类方式的不同组合,
本表格展现了六种不同类型的网络(第一列),
并分别列出了学术界的发展进度(第二列列出了学术界已有模型方法)。
分为:
不带属性的同构网络(HON)(第一行)、带属性的同构网络(AHON)(第二行)、不带属性的异构网络(HEN)、带属性的异构网络(AHEN)、多重异构网络(MHEN)和带属性的异构网络(AMHEN)。
可以看出,
对节点多类型、边多类型且带属性的异质网络 (AMHEN)(最后一行)的研究目前是最少的。
本文则重点关注 Attributed Multiplex Heterogeneous (AMHEN) 网络:
Attributed:考虑节点性质,如用户性别、年龄、购买力等 Multiplex:多重边,节点之间可能有多种关系,比如说两个用户之间可能为好友、同学、交易关系等;用户和item之间可以浏览、点击、添加到购物车、购买等 Heterogeneous:异构,节点和边有多种类型,节点类型 边类型>2
下图为 阿里巴巴公司数据集的网络及效果示意图
如图所示
左图显示了节点多类型、边多类型且带属性的异构网络 的示例。
- 图左侧的用户带有性别、年龄和位置等属性,商品带有价格和品牌等属性。
- 用户和商品之间的边类型来自四种交互,包括单击、添加到喜欢、添加到购物车和购买。
中间的三个图代表了三种不同的设置图结构的方法,包括从底部到顶部的HON, MHEN, AMHEN:
- 下方的HON表示单节点单边无属性的图网络,只建模了用户和物品是否有关联;
- 中间的MHEN则通过将实体(点)与关联关系(边)细分的方式构成;
- 上方的AMHEN则是在MHEN的基础上考虑了节点的属性;
最右侧的竖状图列出了三种方法在阿里数据集上的效果对比。
- 显示了在阿里巴巴数据集上提出的模型相对于DeepWalk的性能改进。
- 可以看出,与DeepWalk相比,GATNE-I实现了 28.23%的性能提升。
三、本文贡献
本论文提出了两个模型
- Transductive Model: GATNE-T
- Inductive Model: GATNE-I
那么二者的区别又是什么呢?
想要知道二者的区别,首先要明白Transductive Model和Inductive Model的区别