如何理解 Graph Convolutional Network(GCN)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何理解 Graph Convolutional Network(GCN)相关的知识,希望对你有一定的参考价值。

参考技术A

从CNN到GCN的联系与区别——GCN从入门到精(fang)通(qi)

了解GCN(图卷积神经网络)之前,必须对离散卷积(具体说就是CNN中的卷积)有个清楚的认识。

如何通俗易懂地解释卷积? , 离散卷积本质就是一种加权求和。

如图1所示,CNN中的卷积本质上就是利用一个共享参数的卷积核, 通过计算中心像素点以及相邻像素点的加权求和构成feature map实现空间特征的提取 ,其中权重就是卷积核的值。

那么卷积核的值如何确定呢?实际上卷积核值的确定过程就是模型训练的过程:首先随机初始化卷积核的值,然后根据反向传播梯度下降不断优化(即不断更新卷积核的值)直到模型收敛,此时卷积核的值被确定。

卷积核的参数通过优化求出才能实现特征提取的作用,GCN的理论很大一部分工作就是为了引入可以优化的卷积参数。

注:这里的卷积是指深度学习(CNN)中的卷积,与数学中定义的卷积运算严格意义上是有区别的。可以参考该内容 卷积神经网络中的卷积与数学中卷积的区别

CNN在计算机视觉中具有广泛应用,对图片具有强大的特征提取能力。但需要注意的是: CNN处理的图像或者视频数据中的像素点(pixel)是排列很整齐的矩阵 (如图2所示,也就是很多论文中提到的Euclidean Structure)。

与之相对应,科学研究中还有很多 Non Euclidean Structure的数据,如图3所示,社交网络、信息网络中有很多类似的结构。

实际上,这样的网络结构(Non Euclidean Structure)就是图论中抽象意义上的拓扑图。

所以, Graph Convolutional Network中的Graph是指数学(图论)中的用顶点和边建立相应关系的拓扑图。

那么为什么要研究GCN?原因有三:

综上所述,GCN是要为除CV、NLP之外的任务提供一种处理、研究的模型。

GCN的本质目的是来提取不规则的拓扑图的空间特征 ,那么实现这个目标只有graph convolution这一种途径吗?当然不是,vertex domain(spatial domain)和spectral domain实现该目标是两种最主流的方式。

(1) vertex domain(spatial domain) 是非常直观的一种方式。顾名思义:提取拓扑图上的空间特征,那么就把每个顶点相邻的neighbors找出来。这里面蕴含的科学问题有二:

a、按照什么条件去找中心vertex的neighbors,也就是如何确定receptive field?

b、确定receptive field,按照什么方式处理包含不同数目neighbors的特征?

根据a,b两个问题设计算法,就可以实现目标了。推荐阅读这篇文章 Learning Convolutional Neural Networks for Graphs
图4是其中一张图片,可以看出大致的思路)。

这种方法主要的缺点如下:
c、每个顶点提取出来的neighbors不同,使得计算处理必须针对每个顶点
d、提取特征的效果可能没有卷积好

(2) spectral domain 就是GCN的理论基础了。这种思路就是希望借助图谱的理论来实现拓扑图上的卷积操作。从整个研究的时间进程来看:首先研究GSP(graph signal processing)的学者定义了graph上的Fourier Transformation, 进而定义了graph上的convolution,最后与深度学习结合提出了Graph Convolutional Network。

认真读到这里,脑海中应该会浮现出一系列问题:

Q1 什么是Spectral graph theory?(解释待定)

Spectral graph theory 请参考,简单来说就是 借助于图的拉普拉斯矩阵的特征值和特征向量来研究图的性质

Q2 GCN为什么要利用Spectral graph theory?

这应该是看论文过程中读不懂的核心问题了,要理解这个问题需要大量的数学定义及推导,没有一定的数学功底难以驾驭(我也才疏学浅,很难回答好这个问题)。

所以,先绕过这个问题,来看Spectral graph实现了什么,再进行探究为什么?

Graph Fourier Transformation及Graph Convolution 的定义都用到图的拉普拉斯矩阵,那么首先来介绍一下拉普拉斯矩阵。

对于图 , 其Laplacian 矩阵的定义为 , 其中 是Laplacian矩阵, 是顶点的度矩阵(对角矩阵),对角线上元素依次为各个顶点的度, 是图的邻接矩阵。看图5的示例,就能很快知道Laplacian 矩阵的计算方法。

这里要说明的是: 常用的拉普拉斯矩阵实际有三种

不需要相关内容的读者可以略过此部分

其实维基本科对 Laplacian matrix 的定义上写得很清楚, 国内的一些介绍中只有第一种定义 。这让我在最初看文献的过程中感到一些的困惑,特意写下来,帮助大家避免再遇到类似的问题。

为什么GCN要用拉普拉斯矩阵?

拉普拉斯矩阵矩阵有很多良好的性质,这里写三点我感触到的和GCN有关之处

superbrother 拉普拉斯矩阵与拉普拉斯算子的关系

GCN的核心基于拉普拉斯矩阵的谱分解,文献中对于这部分内容没有讲解太多,初学者可能会遇到不少误区,所以先了解一下特征分解。

矩阵的谱分解,特征分解,对角化都是同一个概念 ( 特征分解_百度百科 )。

不是所有的矩阵都可以特征分解 ,其充要条件为n阶方阵存在n个 线性无关 的 特征向量

但是拉普拉斯矩阵都是半正定对称矩阵 (半正定矩阵本身就是对称矩阵, 半正定矩阵_百度百科
, 此处这样写为了和下面的性质对应,避免混淆),有如下三个性质:

由上可知,拉普拉斯矩阵一定可以谱分解,且分解后有特殊形式。

对于拉普拉斯矩阵其谱分解为:

其中 ,是单位特征向量组成的矩阵, 是列向量。 是n个特征值构成的对角矩阵。
由于 是正交矩阵,即

因为 (这是定义)
所以

进而这里的特征分解又可以写成:

把传统的傅立叶变换以及卷积迁移到Graph上来,核心就是把拉普拉斯算子的特征函数 变为Graph对应的拉普拉斯矩阵的特征向量。

参考论文 The Emerging Field of Signal Processing on Graphs

(a) Graph上的傅里叶变换
传统的傅立叶变换定义为

是信号 与基函数 的积分, 那么为什么要找 作为基函数呢?从数学上看, 是拉普拉斯算子的特征函数(满足特征方程), 就和特征值有关

广义的特征方程定义为
其中, (一个矩阵)是一种变换(对向量 变换), 是特征向量或者特征函数(无穷维的向量), 是特征值。

满足:

当然 就是变换 的特征函数 , 和特征值密切相关。

那么,可以联想了, 处理Graph问题的时候,用到拉普拉斯矩阵 (拉普拉斯矩阵就是拉普拉斯算子,想了解更多可以参考 Discrete Laplace operator ), 自然就去找拉普拉斯矩阵的特征向量了。

是拉普拉斯矩阵, 是其特征向量,自然满足下式


离散积分就是一种内积形式,仿照上述内容定义Graph的傅立叶变换


是Graph上的 维向量, 与Graph的顶点一一对应, 表示第 个特征向量的第 个分量。那么特征值(频率) 下的 的Graph傅立叶变换就是与 对应的特征向量 进行内积运算

注:上述的内积运算是在复数空间中定义的,所以采用了 ,也就是特征向量 的共轭。

利用矩阵乘法将Graph上的傅立叶变换推广到矩阵形式

即 在Graph上傅立叶变换的矩阵形式 为:
式中: 的定义与第五节中的相同

(b)Graph上的傅立叶逆变换(频域( )到时域( ))
类似地, 传统的傅立叶逆变换是对频率 求积分

迁移到Graph上变为对特征值 求和

利用矩阵乘法将Graph上的傅立叶变换推广到矩阵形式

即 在Graph上傅立叶逆变换的矩阵形式为:

式中: 的定义与第五节中的相同

(2)推广卷积
在上面的基础上,利用 卷积定理 类比来将卷积运算,推广到Graph上。

由卷积定理可知, 两个函数的卷积等于各个函数傅立叶变换的乘积的逆变换 ,即

将上述过程推广到Graph:

则有

存疑:可能是满足交换律?不确定

进一步得到

注:通过乘以 对等式右边做逆变换。

很多论文中的Graph卷积公式为:

式(2)中, 表示Hadamard product(哈达马积),对于两个维度相同的向量、矩阵、张量进行对应位置的逐元素乘积运算。

式(1)和式(2)是完全相同的。

(1)为什么拉普拉斯矩阵的特征向量可以作为傅里叶变换的基?
傅里叶变换一个本质理解就是: 把任意一个函数表示成了若干个正交函数(由sin,cos 构成)的线性组合。

那么: 为什么graph上任意的向量 都可以表示成这样的线性组合?

原因在于 是graph上 维空间中的 个线性无关的正交向量,由线性代数的知识可以知道: 维空间中 个线性无关的向量可以构成空间的一组基,而且拉普拉斯矩阵的特征向量还是一组正交基。

(2)怎么理解拉普拉斯矩阵的特征值表示频率?

在graph空间上无法可视化展示“频率”这个概念,那么从 特征方程 上来抽象理解。

将拉普拉斯矩阵 的 个非负实际特征值,从小到大排列为 ,而且最小的特征值 ,因为 维的全为1向量对应的特征值为0.(这一句不太懂)。

从特征方程的数学理解来看:

在有Graph确定的 维空间中,越小的特征值 表明:拉普拉斯矩阵 其对应的基 上的分量、“信息”越少,那么当然就是可以忽略的低频部分了。

其实 图像压缩 就是这个原理, 把像素矩阵特征分解后,把小的特征值(低频部分)全部变成0,PCA降维也是同样的,把协方差矩阵特征分解后,按从大到小取出前K个特征值对应的特征向量作为新的“坐标轴”。

Graph Convolution的理论告一段落了,下面开始Graph Convolution Network

Deep learning 中的Graph Convolution直接看上去会和第6节推导出的图卷积公式有很大的不同,但是万变不离其宗,(1)式是推导的本源。

第1节的内容已经解释得很清楚:Deep learning 中的Convolution 就是要设计含有trainable共享参数的kernel,从(1)式看很直观:graph convolution中的卷积参数就是

Spectral Networks and Locally Connected Networks on Graphs 中简单粗暴地把 变成了卷积核 ,也就是:


(为避免混淆,本文中称 是卷积核, 的运算结果为卷积运算矩阵)

式(3)就是标准的第一代GCN中的layer了, 其中 是激活函数, ,就跟三层神经网络中的weight一样是任意的参数,通过初始化赋值然后利用误差反向传播进行调整, 就是graph上对应于每个顶点的feature vector(由数据集提取特征构成的向量)。

第一代的参数方法存在着一些弊端,主要在于:
(1) 每一次前向传播,都要计算 三者的矩阵乘积,特别是对于大规模的graph,计算的代价较高,也就是论文中, 的计算复杂度
(2) 卷积核不具有spatial localization(这个在第9节中进一步阐述)
(3) 卷积核需要 个参数

由于以上的缺点第二代的卷积核设计应运而生。

Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering ,把 巧妙设计成了 ,也就是:

上面的公式仿佛还什么都看不出来,下面利用矩阵乘法进行变换,来一探究竟。

进而可以导出:

小说明:
上述等式成立的原因是 ,其中

(4)式就变成了:

其中 是任意的参数,通过初始化赋值然后利用误差反向传播进行调整。

式(5)所设计的卷积核其有点在于:
(1)卷积核只有K个参数,一般K远小于n,参数的复杂度被大大降低了。
(2)矩阵变换后,神奇地发现不需要做特征分解了,直接用拉普拉斯矩阵L进行变换。然而由于要计算 ,计算复杂度还是
(3)卷积核具有很好的spatial localization,特别地,K就是卷积核的receptive field,也就是说每次卷积会将中心顶点K-hop neighbor上的feature进行加权求和,权系数就是

更直观地看, 就是对每个顶点上一阶neighbor的feature进行加权求和,如下图所示:

同理,K=2的情形如下图所示:

注: 上图只是以一个顶点作为实例,GCN每一次卷积对所有的顶点都完成了图示的操作。

在第二代GCN中, 是 的矩阵,所以 的计算复杂度还是 , Wavelets on graphs via spectral graph theory 提出了利用Chebyshev多项式拟合卷积核的方法,来降低计算复杂度。卷积核 可以利用截断(truncated)的shifted Chebyshev多项式来逼近。 (这里本质上应该寻找Minimax(极小值) Polynomial Approximation, 但是作者说直接利用Chebyshev Polynomial的效果也很好)


其中 是Chebyshev多项式的系数, 是取 的Chebyshev多项式,进行这个shift变换的原因是Chebyshev多项式的输入要在[-1, 1]之间。

由Chebyshev多项式的性质,可以得到如下的递推公式

其中, 的定义同上,是 维的由每个顶点的特征构成的向量(当然,也可以是 的特征矩阵,这时每个顶点都有 个特征,但是 远小于 。

这个时候不难发现:式(6)的运算不再有矩阵乘积了,只需要计算矩阵与向量的乘积即可。计算一次 的复杂度是 , 是图中边的集合,则整个运算的复杂度是 。当graph是稀疏图的时候,计算加速尤为明显,这个时候复杂度远低于

上面的讲述是GCN最基础的思路,很多论文中的GCN结构是在上述思路的基础上进行了一些简单数学变换。理解了上述内容,就可以做到“万变不离其宗”

CNN中有两大核心思想:网络局部连接,卷积核参数共享

那么我们不禁会联想:这两点在GCN中是怎样的呢?以下图的graph结构为例来探究一下

(a)如果利用第一代GCN,根据式(3)卷积运算矩阵( )即为

这个时候,可以发现这个卷积核没有 local的性质,因为该卷积核得到的运算矩阵在所有位置上都有非0元素。以第一个顶点为例,如果考虑一阶local关系的话,那么卷积核中第一行应该只有[1,1],[1,2],[1,5]这三个位置的元素非0。 换句话说,这是一个global全连接的卷积核。

(b)如果是第二代GCN,根据式(5)当 K=1卷积运算矩阵即为

以上是关于如何理解 Graph Convolutional Network(GCN)的主要内容,如果未能解决你的问题,请参考以下文章

SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS 论文/GCN学习笔记

SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS 论文/GCN学习笔记

GCN(Graph Convolutional Network)的简单公式推导

GCN与文本分类Graph Convolutional Networks for Text Classification

GCN与文本分类Graph Convolutional Networks for Text Classification

GCN与文本分类Graph Convolutional Networks for Text Classification