图神经网络(GNN)是一类专门针对图结构数据的神经网络模型,在社交网络分析、知识图谱等领域中取得了不错的效果。近来,相关研究人员在GNN的可解释性、架构搜索、对比学习等方面做了很多探究。
本周精选了10篇GNN领域的优秀论文,来自北航、北邮、慕尼黑大学、CMU等机构。
1. Does Graph Distillation See Like
Vision Dataset Counterpart?
✦
✦
✦
✦
这篇论文探讨了在大规模图上进行图表示学习的效果,但同时也关注了这种方法的成本和存储问题。目前,图压缩方法主要关注优化压缩图的特征矩阵,而忽视了原始图的结构信息。本文研究了结构信息的影响,并从谱域进行了分析,发现以前的工作中存在较大的 Laplacian 能量分布 (LED) 偏移,这导致了跨架构泛化和特定任务的性能下降,包括异常检测和链接预测。为了解决这个问题,本文提出了一种新颖的结构广播图数据集蒸馏 (SGDD) 方案,将原始结构信息广播到合成图中,防止忽视原始结构信息。理论上,SGDD 生成的合成图预计具有比以前工作更小的 LED 偏移,从而在跨架构设置和特定任务中实现更好的性能。本文在 9 个数据集上验证了所提出的 SGDD,并在所有数据集上都取得了最先进的结果:例如,在 YelpChi 数据集上,我们的方法在训练原始图数据集时保持了 98.6% 的测试精度,同时节省了 1000 倍的图规模。此外,我们经验性地评估了在 9 个数据集中存在 17.6%~31.4% 的 LED 偏移减少。广泛的实验和分析验证了所提出设计的有效性和必要性。
链接:https://www.aminer.cn/pub/652c9d07939a5f40825c0de2/?f=wx阅读原文
2. Graph Condensation via Eigenbasis Matching
✦
✦
✦
✦
这篇论文讨论了图神经网络(GNNs)在处理大量图数据时的效率和可扩展性问题。为了解决这个问题,研究人员提出了图压缩(GC)方法,通过用较小的合成图替换实际的大图,使基于两种图的 GNNs 具有相似的性能。然而,现有的 GC 方法存在泛化性能差的问题,即同一合成图上训练的不同 GNNs 性能差距明显。为了找出影响 GC 泛化的因素并缓解这一问题,论文提出了谱自由图压缩(GCEM)方法,通过匹配真实图和合成图的特征基,消除 GNNs 的谱偏差,并利用真实图的谱信息和合成特征基构建合成图,从而保留关键的结构信息。实验结果表明,GCEM 不仅在五个图数据集上优于基线方法,而且显著缩小了不同 GNNs 之间的性能差距。
链接:https://www.aminer.cn/pub/652c9d07939a5f40825c0dec/?f=wx阅读原文
3. GENTKG: Generative Forecasting
on Temporal Knowledge Graph
✦
✦
✦
✦
这篇论文探讨了在大语言模型(LLMs)的快速发展下,预训练 LLMs 是否可以理解结构化时间关系数据,并取代现有的基于嵌入和规则的时间知识图(tKG)模型,作为时间关系预测的基础模型。为了解决复杂的时间图数据结构与序列自然表达之间的巨大鸿沟,以及 tKG 的巨大数据规模与 finetuning LLMs 的沉重计算成本之间的挑战,作者提出了一种新颖的检索增强生成框架 GenTKG,用于在 tKG 上进行生成性预测。GenTKG 结合了基于时间逻辑规则的检索策略和轻量级参数高效指令调整。实验结果表明,在低计算资源下,GenTKG 优于传统的时间关系预测方法。GenTKG 在未见过的数据集上表现出出色的迁移性,无需重新训练即可实现卓越的性能。这项工作揭示了 LLMs 在 tKG 领域巨大的潜力,为时间知识图上的生成性预测开辟了新的前沿。
链接:https://www.aminer.cn/pub/6528a864939a5f4082579e02/?f=wx阅读原文
4. Multimodal Graph Learning for Generative Tasks
✦
✦
✦
✦
这篇论文研究了多模态图学习(MMGL)在生成任务中的应用。多模态学习结合了多种数据模态,拓宽了模型可以利用的数据类型和复杂性,例如从纯文本到图像字幕对。大多数多模态学习算法关注于建模两种模态之间简单的一对一数据关系,例如图像字幕对或音频文本对。然而,在大多数现实场景中,不同模态的实体之间的交互方式更为复杂和多面,超出了一对一映射的范围。我们提出将这种复杂关系表示为图,使我们能够捕获任意数量模态的数据,以及可以灵活变化于各个样本之间的模态之间的复杂关系。为此,我们提出了多模态图学习(MMGL),一种通用的、系统的框架,用于捕获具有相互关系结构的多个多模态邻居的信息。特别是,我们关注 MMGL 在生成任务中的应用,基于预训练的语言模型(LMs),旨在增强其文本生成能力,融入多模态邻居上下文。我们研究了由 MMGL 提出的三个研究问题:(1)我们如何将多个邻居信息注入预训练的 LMs,同时避免可扩展性问题?(2)我们如何将多模态邻居之间的图结构信息注入 LMs?(3)我们如何微调预训练的 LMs,以在参数高效的方式下从邻居语境中学习?我们对 MMGL 进行了深入的实验,并分析实证结果,为未来的 MMGL 研究铺平道路。
链接:https://www.aminer.cn/pub/65275731939a5f4082a450df/?f=wx阅读原文
5. Advective Diffusion Transformers for Topological
Generalization in Graph Learning
✦
✦
✦
✦
这篇论文探讨了图学习中的图神经网络(GNNs)的泛化能力问题。目前的方法在训练和测试集中的图结构来自同一分布的假设上存在局限性。论文通过研究图扩散方程在不同图结构下的推广和泛化,来理解 GNNs 的泛化能力。作者首先展示了基于局部图扩散的现有模型的泛化能力不足,源于对图结构变化的指数敏感性。随后,作者分析了非局部扩散的前景,它主张在特定数据生成条件下,通过特征传播来覆盖完全连接的潜在图。此外,作者还提出了一种新颖的图编码器骨干网络——Advective Diffusion Transformer(ADiT),该网络受到具有闭式解和支持理论保证的导流图扩散方程的启发,可以在图结构分布变化的情况下实现所需的泛化。作为一种多功能的图 Transformer,ADiT 在各种图学习任务中表现出优越的性能。
链接:https://www.aminer.cn/pub/65262322939a5f4082bb60ff/?f=wx阅读原文
6. Self-Discriminative Modeling
for Anomalous Graph Detection
✦
✦
✦
✦
这篇论文研究了仅通过训练正常图来检测异常图的问题,该问题在分子、生物和社会网络数据分析中有许多应用。论文提出了一个用于异常图检测的自区分建模框架。关键思想是从给定的正常图和由共同训练的模型生成的伪异常图中学习一个判别器(分类器),其中我们从未使用过真正的异常图,我们希望生成的伪异常图能够在正常图和真正的异常图之间进行插值。在该框架下,我们提供了三种计算效率和稳定性不同的异常图检测算法。这三种算法在与几种最先进的图级异常检测基线在九个流行的图数据集(四个小规模和五个中等规模)上的比较中,在 AUC 方面显示出显著的改进。我们算法的成功源于区分分类器与伪异常图的整合,这为异常检测提供了新的见解。此外,我们还研究了我们的算法在大规模不平衡图数据集上的表现。令人惊讶的是,尽管我们的算法完全无需监督,但它能够显著优于异常图检测的监督学习算法。同时也分析了相应的原因。
链接:https://www.aminer.cn/pub/6526228c939a5f4082baed85/?f=wx阅读原文
7. GraphLLM: Boosting Graph Reasoning
Ability of Large Language Model
✦
✦
✦
✦
这篇论文探讨了大型语言模型(LLMs)在图数据理解和推理方面的不足,提出了一种名为 GraphLLM 的全新方法来增强 LLMs 的图推理能力。GraphLLM 将图学习模型与 LLMs 相结合,克服了将图转换为自然语言描述(Graph2Text)的常见瓶颈。通过这种协同作用,GraphLLM 使 LLMs 能够有效地理解和推理图数据,并提高了四个基本图推理任务的平均准确率 54.44%,同时降低了各种图推理任务的上下文减少 96.45%。
链接:https://www.aminer.cn/pub/65252d41939a5f40827c93f8/?f=wx阅读原文
8. Tailoring Self-Attention for Graph
via Rooted Subtrees
✦
✦
✦
✦
这篇论文提出了一种名为 Subtree Attention(STA)的新颖多跳图注意力机制,以解决现有图学习中的局部注意力和全局注意力机制所面临的挑战。STA 结合了完全注意力结构和根子树,并证明了在极限情况下,STA 可以近似全局注意力。通过允许计算多跳邻居之间的注意力权重,STA 减轻了现有图注意力机制的固有缺陷。此外,通过使用核化 softmax,我们为 STA 设计了高效形式,从而获得线性时间复杂度。我们的 STAGNN 架构是一种基于 STA 的简单且高性能的图神经网络,利用了跳跃感知注意力策略。在十个节点分类数据集上的全面评估显示,基于 STA 的模型优于现有的图变换器和主流 GNN。相关代码已开源在 https://github.com/LUMIA-Group/SubTree-Attention。
链接:https://www.aminer.cn/pub/65252b37939a5f40826f1334/?f=wx阅读原文
9. GSLB: The Graph Structure Learning Benchmark
✦
✦
✦
✦
这篇论文介绍了图结构学习(GSL)在图神经网络(GNN)参数和计算图结构优化方面的应用。尽管近年来图结构学习方法不断发展,但是缺乏标准的实验设置和性能评估方法,这阻碍了人们对该领域进展的了解。为了解决这个问题,作者系统地分析了不同场景下图结构学习的性能,并从 20 个不同的图数据集和 16 个不同的图结构学习算法中,开发了一个全面的图结构学习基准(GSLB)。GSLB 从三个维度系统地研究了图结构学习的特性:有效性、鲁棒性和复杂性。作者全面评估了最先进的图结构学习算法在节点和图级别任务上的性能,并分析了它们在鲁棒学习和模型复杂性方面的表现。此外,为了促进可重复的研究,作者开发了一个易于使用的库,用于训练、评估和可视化不同的图结构学习方法。作者的实验结果证明了图结构学习的能力,并揭示了它在各种下游任务上的潜在好处,为未来的研究提供了洞察和机会。GSLB 的代码可以在 https://github.com/GSL-Benchmark/GSLB 上找到。
链接:https://www.aminer.cn/pub/65252ac9939a5f40826cb985/?f=wx阅读原文
10. Label-free Node Classification on Graphs
with Large Language Models (LLMS)
✦
✦
✦
✦
这篇论文介绍了在大型语言模型(LLMs)上进行标签自由图节点分类的方法。近年来,图神经网络(GNNs)在节点分类方面取得了显著进展,但它们需要大量高质量标签以确保性能。相比之下,LLMs 在文本相关的图上展示了出色的零散射性能。然而,它们在处理结构化数据方面面临挑战,且推理成本较高。针对这些观察,本文提出了一种使用 LLMs 进行标签自由图节点分类的管道方法,名为 LLM-GNN。它结合了 GNNs 和 LLMs 的优势,同时减轻了它们的局限性。具体而言,利用 LLMs 对一小部分节点进行标注,然后用 LLMs 的标注训练 GNNs,对剩余的大部分节点进行预测。LLM-GNN 的实现面临一个独特挑战:如何主动选择节点供 LLMs 标注,从而提高 GNNs 的训练效果?如何利用 LLMs 获得高质量、代表性和多样性的标注,从而在降低成本的同时提高 GNN 性能?为解决这一挑战,本文开发了一个标注质量启发式方法,并利用 LLMs 导出的置信度得分进行高级节点选择。全面的实验结果验证了 LLM-GNN 的有效性。特别是,LLM-GNN 在一个大规模数据集上实现了 74.9% 的准确率,成本不到 1 美元。
链接:https://www.aminer.cn/pub/652528a9939a5f4082606e16/?f=wx阅读原文