图神经网络 | 网络的属性和随机图模型
Posted AIDD student
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图神经网络 | 网络的属性和随机图模型相关的知识,希望对你有一定的参考价值。
网络的属性:如何度量网络
度分布(degreedistribution,P(k)):图网络中随机选择一个节点,节点的度(degree)为k的概率为度分布P(k)。相应地,对于有向图,我们度分布分为入度分布(in-degreedistributions)与出度分布(out-degreedistribution)。
图的路径(path
)为一条顺序连接的节点序列,可以用以下两种方式表示图的路径,图的路径可以多次通过同一条边或者同一个节点。在有向图中,图的路径应按照边箭头的方向前进。
图中两节点的距离(distance
,h
)为沿最短路径连接这两个节点的边数。
图直径(diameter
)是指图中任意两节点的最小距离中,选取的最大值。若要求得一张图的直径,首先要求得任意两点间的最短路径,在这些所有的最短路径中,最长的就是这张图的直径。
平均路径长度(average path length):连通图或强连通有向图的所有平均路径长度,也就是不存在路径长度为无限远的情况。平均路径长度计算公式如下,hij是节点i到节点j的距离,Emax为给定节点数n的边数最大值(完全图边数)= n(n-1)/2。
聚集系数(clusteringcoefficient,Ci)(无向图)计算公式如下,ei是与节点i相邻节点的边数,ki是邻居节点(包含节点i)的数目,ki(ki − 1)/2是这些邻居节点的边数最大值(max number of edges)。
平均聚集系数(averageclustering coefficient):N为图网络中节点总数。
连通分量(connectedcomponent,s)是用来描述图网络的连通性的图属性。在无向图G中,若从顶点vi到顶点vj有路径(当然从vj到vi也一定有路径),则称vi和vj是连通的。在无向图G中,若V(G)中任意两个不同的顶点vi和vj都连通(即有路径),则称G为连通图(Con-nected Graph)。图中的某一部分独立出来具有连通图的性质,这部分就称为连通分量。
最大连通分量(largest connected component):图中的某一部分独立出来具有连通图的性质,这一部分最大化的集合就是最大连通分量。再加一个节点任意两个不同的顶点就不能全部连通,如下图所示红圈中就是该图网络的最大连通分量。
真实世界图网络属性示例
以PPI
(protein-protein interaction
)网络为例:
图a
是一个典型PPI
网络,是一个无向图,N=2018
个蛋白质,共有E=2930
条边将这些蛋白质联系在一起。图b
是这个PPI
网络的度分布图,横轴为度的大小,纵轴为指定度的度分布P(k)
。平均度为2.90
。图c
为图的距离分布,横轴d
为最短路径长度,纵轴P(d)
为所有最短路径中,指定大小的最短路径的概率。图c
为图的聚集系数,平均聚集系数为0.12
。
图的连通性:共有
185
个连通分量,最大连通分量有
1647
个节点,占图节点总数的
81%
。
随机图模型
ER
随机图模型(Erdös-Renyi Random Graphs
)分为两种情况,一种是G
np
,给定n
个节点以及连边概率p
∈[0,1]
,进行随机连边,构建随机图模型;另一种是G
nm
,给定n
个节点和待添加的边数m
,随机连边,构建随机图模型。
实际上,这两种生成图模型的方法是等价的n
节点的图最多有n
(n-1
)/2
条边,定义了待添加的边数m
,也就相当于定义了连边概率。所以我们之后以最常用的G
np
随机图模型来看随机图模型的一些性质。
对于
Gnp
随机图模型
,同样具有以下属性,但由于构建图是随机的,图的属性也相对比较特殊。
Gnp随机图模型的度分布为二项分布,度分布计算方式为,度分布均值为,方差为。
根据大数定律,随着网络规模的增大,度分布图像变得越来越窄,节点的度数集中于k均值附近。
Gnp随机图模型的聚集系数(clustering coefficient):
我们的聚集系数计算方程如下,其中ei是节点i与邻居节点之间的边数:
因为每两个节点之间出现边的概率为p
,假设节点i
有k
i
个邻居节点,则最大可能有
条边,我们e
i
的期望就为:
聚集系数Ci的期望为:
为了计算路径长度,我们需要先定义一个边扩展系数(
expansion
)α
:如果S
是图节点总数V
的子集,那么从S
离开到达其他节点的数目大于等于α* min(|S|,|V\S|)
,其中V\S
表示总节点除去S
之后剩下的节点集合。
存在一个已证明的事实:在有
n
个节点,边扩展系数为α的图中,对于所有对节点,都有一条长度相同的路径,路径长度数量级为
(logn)/α
,表示为
O((log n)/α)
,
O
代表数量级。
对于随机图模型,log n> np > c
,
diam(Gnp) = O(log n / log (np))
。所以ER
随机图模型可以有非常庞大的节点数目,但是平均最短路径长度只有几跳(hop
)。
以下是一个真实的图网络(
MSN
,国外社交软件)和我们用同样规模的节点和边数做的随机图网络模型,可以看出,真实图网络中度分布大多数非常小,有很少情况非常大,而随机图网络的度分布主要集中于一个均值,非常大的度几乎没有,度分布两者明显有非常大的区别。在聚集系数上,随机图模型也远小于真实图,说明我们真实世界中,关系的聚集性不是随机的。而在路径长度和连通分量上,真实图模型与随机图模型数值量级相同。
小世界图
从上一节可以看出,真实图网络MSN
的聚类系数比随机图网络G
np
大7
个数量级。再看一下其他真实网络(分别为演员关系、电力线路网络、线虫神经网络)与随机图网络的比较:
其中h
为平均最短路径,C
为平均聚集系数。我们可以看出平均最短路径的数量级相差无几,但是随机图网络的聚集系数要远小于真实图网络。
因此,为表征真实图网络的性质,我们对随机图网络的聚集系数人为调整高,就形成了我们的小世界图(small-world model
),用以更好地表征真实世界图网络结构。
由下图可知,规则的环形格子单位在同样数目的节点和边中具有高聚集系数和大直径;反之,环形缺口越多,聚集系数越小,直径也越小。原本在环两端的点要想连接需要绕环半周,而右边的只需要一两步直接就可以到达,最短路径被大大缩短。
我们希望在这之间,找寻一个具有较高聚集系数,较短平均最短路径的网络,构成我们的小世界图。Watts
和Strogatz
在此基础上提出了小世界图模型的建立方法:
首先我们从左边的环形规则连接方式(环格ring attice
)开始,然后随机添加同时随机删除边创建远端节点的连接,类似下图,从而构建出具有较高聚集系数,较短平均最短路径的网络。
Kronecker图模型
真实世界的图网络很多是具有递归性(recursive
)的,也就是说整体或多个部分与图的一小部分有相似的形状。比如微博中的大V
,粉丝网络中会有一些小V
,如果是同一领域,大V
的粉丝网络与小V
的粉丝网络结构就会很相似,只是规模不同而已。这时我们就可以通过递归的方式将一个小型网络扩展为大型网络。
其中
Kronecker
内积(Kroneckerproduct
)
就是产生这种自相似矩阵的方法。
Kronecker图是通过矩阵进行内积(叉乘计算)产生的。
Kronecker
图
的结构与其初始邻接矩阵有关:
Kronecker图还可以用分解方法快速生成,具体可见:Kronecker Graphs:AnApproach to Modeling Network。这里用图示简单说明下原理:
Reference
斯坦福图神经网络课程CS224W --Jure Leskovec
以上是关于图神经网络 | 网络的属性和随机图模型的主要内容,如果未能解决你的问题,请参考以下文章
python图工具中基于随机块模型动态网络社团检测
小世界网络模型简介及R模拟
概率图模型(贝叶斯网络)
概率图模型(贝叶斯网络)
如何在 Tensorboard 中可视化图神经网络的模型图
斯坦福-随机图模型-week1.2