KDD"23:图神经网络的新领域

2023-09-22 17:31:06 浏览数 (1)

孙一洲,加州大学洛杉矶分校计算机科学副教授;亚马逊学者;2023年知识发现与数据挖掘会议总主席

会议主席兼亚马逊学者孙一舟介绍了远程依赖关系建模、提高效率和新的因果模型。

2021年和2022 年,当 Amazon Science 邀请知识发现和数据挖掘会议 ( KDD )的程序委员会成员讨论其领域的现状时,对话围绕着图神经网络展开。

图学习仍然是 KDD 2023 上最热门的话题,但正如会议主席、亚马逊学者、加州大学洛杉矶分校计算机科学副教授孙一洲解释说,这并不意味着该领域已经停滞不前。

图神经网络 ( GNN ) 是机器学习模型,可生成图节点的嵌入或向量表示,捕获有关节点与其他节点的关系的信息。它们可用于与图相关的任务,例如预测边缘或标记节点,但它们也可用于任意下游处理任务,这些任务只是利用图结构中编码的信息。

但在这个一般定义中,“‘图神经网络’的含义可能非常不同,”孙说。“‘图神经网络’是一个非常广泛的术语。”

例如,Sun 解释说,传统的 GNN 使用消息传递来生成嵌入。图中的每个节点都是嵌入的,然后每个节点接收其相邻节点的嵌入(传递的消息),并将其集成到更新的嵌入中。通常,此过程执行两到三次,以便每个节点的嵌入捕获有关其一到三跳邻域的信息。

“如果我进行消息传递,我只能从我的近邻那里收集信息,”孙解释道。“我需要经历很多很多层来对远程依赖关系进行建模。对于某些特定的应用程序,例如软件分析或物理系统的模拟,远程依赖性变得至关重要。

“所以人们问我们如何改变这种架构。他们受到 Transformer 的启发——基于注意力的神经架构,它是当今大型语言模型的基础——“因为 Transformer 可以被认为是图神经网络的一个特例,在输入窗口中,每个标记都可以连接到每个标记其他token。

“如果每个节点都可以与图中的每个节点进行通信,那么您就可以轻松解决这个远程依赖问题。但会有两个限制。一是效率。对于某些图,有数百万甚至数十亿个节点。你无法有效地与图中的其他人交谈。”

Sun 解释说,第二个担忧是,过多的远程连接会破坏图表示的本质。图很有用,因为它们捕获了节点之间有意义的关系——这意味着忽略无意义的关系。如果图中的每个节点都与其他每个节点通信,则有意义的连接就会被稀释。

为了解决这个问题,“人们试图找到一种方法来模仿文本设置或图像设置中的位置编码,”孙说。“在文本设置中,我们只是将位置转换为某种编码。后来,在计算机视觉领域,人们说,“好吧,我们也用图像补丁patch来做到这一点。” 因此,例如,我们可以将每个图像分成六乘六的补丁,并且这些补丁的相对位置可以转换为位置编码。

“所以下一个问题是,在图设置中,我们如何才能获得那种自然的相对位置?有不同的方法可以做到这一点,例如随机游走——一种非常简单的方法。人们还尝试进行特征分解,我们利用特征向量来编码这些节点的相对位置。但特征分解非常耗时,所以这又归结为效率问题。”

效率

Sun 解释说,事实上,提高 GNN 的效率本身就是一个活跃的研究领域——从高级算法设计到芯片设计水平。

“在算法层面,你可能会尝试采用某种采样技术,只是尝试减少操作次数,”她说。“或者也许只是设计一些更有效的算法来稀疏图。例如,假设我们想要进行某种相似性搜索,以保留与每个目标节点最相似的节点。然后人们可以设计一些智能索引技术来使该部分变得非常快。

“在推理阶段,我们可以进行知识蒸馏,将一个非常复杂的模型(比如说图神经网络)提炼成一个非常简单的图神经网络——或者不一定是图神经网络,可能只是一种非常简单的结构,就像 MLP [多层感知器]。然后我们可以更快地进行计算。量化也可以应用于推理阶段,使计算速度更快。

“所以这是算法层面的。但现在人们走得更深了。有时候,想要解决问题,就需要到系统层面去解决。所以人们说,让我们看看如何设计这个分布式系统来加速训练、加速推理。

“例如,在某些情况下,内存成为主要限制。在这种情况下,我们唯一能做的可能就是分配工作量。那么自然的问题就是我们如何协调或同步每个计算节点训练的模型参数。如果我们必须将数据分发到 10 台机器,您如何与这 10 台机器协调以确保您只有一个最终版本?

“人们现在甚至更深入,在硬件方面进行加速。因此软硬件协同设计也变得越来越流行。它需要人们真正了解很多不同的领域。

“顺便说一句,在 KDD 上,与许多其他机器学习会议相比,现实世界的问题始终是我们的首要关注点。很多时候,为了解决现实世界的问题,我们必须与不同背景的人交谈,因为我们不能把它包装成我们高中时解决的那种理想问题。”

应用领域

然而,除了提高 GNN 的多功能性和准确性的一般努力之外,还有针对 GNN 技术的特定应用的新研究。

“有一些工作是关于如何在图设置中进行因果分析,这意味着对象实际上是相互干扰的,”Sun 解释道。“这与传统环境有很大不同:例如,药物研究中的患者是相互独立的。

“还有一种新趋势是将深度表示学习与因果推理相结合。例如,我们如何将您尝试的治疗表示为连续向量,而不仅仅是二元治疗?我们能否使治疗在时间上连续——这意味着它不仅仅是一种静态的一次性治疗?如果我 10 天后进行治疗,与 20 天后进行治疗相比,结果如何?时间很重要;我们如何注入时间信息?

“图也可以被认为是描述多智能体动态系统的良好数据结构——这些对象如何在动态网络设置中相互交互。那么,我们如何将生成思想融入到图中呢?图生成对于许多领域都非常有用,例如在制药行业。

“还有很多应用程序可以让我们从大型语言模型 [LLM] 中受益。比如知识图谱推理。我们知道LLM会产生幻觉,而KG上的推理是非常严谨的。这两者的良好组合是什么?

“对于 GNN,总会有新的东西出现。图只是一种非常有用的数据结构,可以用来模拟我们互联的世界。”

0 人点赞