图神经网络三剑客：GCNGAT与GraphSAGE

Posted 2021-04-26 PaperWeekly

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了图神经网络三剑客：GCNGAT与GraphSAGE相关的知识，希望对你有一定的参考价值。

©PaperWeekly 原创 · 作者｜桑运鑫

学校｜上海交通大学

研究方向｜图神经网络在金融领域的应用

2019 年号称图神经网络元年，在各个领域关于图神经网络的研究爆发式增长。本文主要介绍一下三种常见图神经网络：GCN、GAT 以及 GraphSAGE。前两者是目前应用比较广泛的图神经网络，后者则为图神经网络的工程应用提供了基础。

图神经网络三剑客：GCN、GAT与GraphSAGE

GCN

图神经网络基于巴拿赫不动点定理提出，但图神经网络领域的大发展是在 2013 年 Bruna 提出图上的基于频域和基于空域的卷积神经网络后。

关于图卷积神经网络的理解与介绍，知乎上的回答已经讲的非常透彻了。

如何理解 Graph Convolutional Network (GCN)？

https://www.zhihu.com/question/54504471/answer/332657604

这里主要介绍一下 PyG 和 DGL 两个主要的图神经网络库实现所基于的文章 Semi-supervised Classification with Graph Convolutional Networks。它基于对图上频域卷积的一阶近似提出了一种高效的逐层传播规则。

图神经网络三剑客：GCN、GAT与GraphSAGE

论文标题： Semi-supervised Classification with Graph Convolutional Networks

论文链接： https://arxiv.org/abs/1609.02907

在将定义在欧式空间上的拉普拉斯算子和傅里叶变换对应到图上之后，图上的频域卷积操作可以基于卷积定理自然导出：

图神经网络三剑客：GCN、GAT与GraphSAGE

其中图上的拉普拉斯矩阵（归一化后）L 是一个半正定对称矩阵，它具有一些良好的性质，可以进行谱分解：图神经网络三剑客：GCN、GAT与GraphSAGE ，其中 U 是 L 的特征向向量组成的矩阵，Λ 是 L 的特征值组成的对角矩阵，则是定义在图上的对信号的傅里叶变换。

而对角矩阵图神经网络三剑客：GCN、GAT与GraphSAGE 则是卷积核，也是不同的卷积操作关注的焦点，对不同的设计会影响卷积操作的效率，其编码的信息也会影响最终任务的精度。

一开始的图卷积神经网络将图神经网络三剑客：GCN、GAT与GraphSAGE 视作 L 的特征值的一个函数。但这种定义存在两个问题：

1. 对特征向量矩阵 U 的乘法操作时间复杂度是图神经网络三剑客：GCN、GAT与GraphSAGE ；

2. 对大规模图的拉普拉斯矩阵 L 的特征分解是困难的。

之后的研究发现可以使用切比雪夫多项式来对图神经网络三剑客：GCN、GAT与GraphSAGE 进行近似：

图神经网络三剑客：GCN、GAT与GraphSAGE

其中图神经网络三剑客：GCN、GAT与GraphSAGE 。是 L 的最大特征值，是切比雪夫多项式的系数向量。切比雪夫多项式通过如下的递推公式定义：，起始值：。将其代入之前定义的卷积操作：

图神经网络三剑客：GCN、GAT与GraphSAGE

其中图神经网络三剑客：GCN、GAT与GraphSAGE ，此时的时间复杂度为。文章在此基础上对卷积操作进行了进一步的简化，首先固定 K=1，并且让近似等于 2（注意之前对 L 的定义），则上式可以简化为一个包含两个自由参数和的公式：

图神经网络三剑客：GCN、GAT与GraphSAGE

我们进一步假定图神经网络三剑客：GCN、GAT与GraphSAGE ，则可进一步对公式进行变形：

图神经网络三剑客：GCN、GAT与GraphSAGE

但是此时的图神经网络三剑客：GCN、GAT与GraphSAGE 的特征值取值在 [0, 2]，对这一操作的堆叠会导致数值不稳定以及梯度爆炸（或消失）等问题。为了解决这一问题，引入一种称为重归一化（renormalization）的技术：

图神经网络三剑客：GCN、GAT与GraphSAGE

最后将计算进行向量化，得到最终的卷积计算公式为：

图神经网络三剑客：GCN、GAT与GraphSAGE

这一计算的时间复杂度为图神经网络三剑客：GCN、GAT与GraphSAGE 。基于上式实现的 GCN 在三个数据集上取得了当时最好的结果。

图神经网络三剑客：GCN、GAT与GraphSAGE

GAT

PyG 与 DGL 的 GAT 模块都是基于 Graph Attention Networks 实现的，它的思想非常简单，就是将 transform 中大放异彩的注意力机制迁移到了图神经网络上。

图神经网络三剑客：GCN、GAT与GraphSAGE

论文标题：Graph Attention Networks

论文链接： https://arxiv.org/abs/1710.10903

整篇文章的内容可以用下面一张图来概况。

图神经网络三剑客：GCN、GAT与GraphSAGE

首先回顾下注意力机制的定义，注意力机制实质上可以理解成一个加权求和的过程：对于一个给定的 query，有一系列的 value 和与之一一对应的 key，怎样计算 query 的结果呢？

很简单，对 query 和所有的 key 求相似度，然后根据相似度对所有的 value 加权求和就行了。这个相似度就是 attention coefficients，在文章中计算如下：

图神经网络三剑客：GCN、GAT与GraphSAGE

其中图神经网络三剑客：GCN、GAT与GraphSAGE 是前馈神经网络的权重系数，|| 代表拼接操作。

利用注意力机制对图中结点特征进行更新：

图神经网络三剑客：GCN、GAT与GraphSAGE

既然得到了上式，那么多头注意力的更新就不言而明了，用 k 个权重系数分别得到新的结点特征之后再拼接就可以了：

图神经网络三剑客：GCN、GAT与GraphSAGE

最后就是大家喜闻乐见的暴打 benchmarks 的环节，GAT 在三个数据集上达到了当时的 SOTA。

图神经网络三剑客：GCN、GAT与GraphSAGE

GraphSAGE

GraphSAGE 由 Inductive Representation Learning on Large Graphs 提出，该方法提供了一种通用的归纳式框架，使用结点信息特征为未出现过的（unseen）结点生成结点向量，这一方法为后来的 PinSage（GCN 在商业推荐系统首次成功应用）提供了基础。

图神经网络三剑客：GCN、GAT与GraphSAGE