CS224W摘要12.Frequent Subgraph Mining with GNNs
Posted oldmao_2000
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CS224W摘要12.Frequent Subgraph Mining with GNNs相关的知识,希望对你有一定的参考价值。
文章目录
CS224W: Machine Learning with Graphs
公式输入请参考: 在线Latex公式
本节课三部分内容
子图的概念和定义,其重要性指标。
子图的表征,如果用GNN的方式进行子图的表征
子图频率的挖掘
Subgraph and Motifs
先要明确子图的概念,就好比乐高中的模块一样,不能切分太小,又不能切分太多,如何识别出图中的子图模块。
Definitionn of Subgraphs
有两种。Given graph 𝑮 = (𝑽, 𝑬)
选择的方式主要看应用,例如:
Chemistry: node-induced (functional groups)
Knowledge graphs: Often edge-induced (focus is on edges representing logical relations)
Node-induced subgraph
Take subset of the nodes and all edges induced by the nodes:
G
′
=
(
𝑉
′
,
𝐸
′
)
G' = (𝑉', 𝐸')
G′=(V′,E′) is a node induced subgraph iff
𝑉
′
⊈
V
𝑉'\\nsubseteq V
V′⊈V
𝐸
′
=
{
(
𝑢
,
𝑣
)
∈
𝐸
∣
𝑢
,
𝑣
∈
𝑉
′
}
𝐸′ = \\{(𝑢, 𝑣) ∈ 𝐸 | 𝑢, 𝑣 ∈ 𝑉'\\}
E′={(u,v)∈E∣u,v∈V′}
𝐺
′
𝐺'
G′ is the subgraph of 𝐺 induced by
𝑉
′
𝑉'
V′
也叫:induced subgraph由节点集决定的子图
Edge-induced subgraph
Take subset of the edges and all corresponding nodes
G
′
=
(
𝑉
′
,
𝐸
′
)
G' = (𝑉', 𝐸')
G′=(V′,E′) is an edge induced subgraph iff
𝐸
′
⊆
𝐸
𝐸' ⊆ 𝐸
E′⊆E
𝑉
′
=
{
𝑣
∈
𝑉
∣
(
𝑣
,
𝑢
)
∈
𝐸
′
for some
𝑢
}
𝑉'=\\{𝑣∈𝑉|(𝑣,𝑢)∈𝐸′\\text{ for some }𝑢\\}
V′={v∈V∣(v,u)∈E′ for some u}
也叫:“non-induced subgraph” or just “subgraph”,较少用
contained subgraph
上面两种子图定义都是针对从源图中取的子图,如果节点或者边是来自不同的图:
那么我们把两个图称为包含关系。确定包含关系的关键之处就是确定图是否同构。
Graph isomorphism
由于节点的无序性,同构可能是NP-hard的问题(未证明),具体定义如下:
如果两个图存在一个双射函数(bijection function)
f
f
f,使得:
(
u
,
v
)
∈
E
1
iff
(
f
(
a
)
,
f
(
b
)
)
∈
E
2
(u,v)\\in E_1 \\text{ iff }(f(a),f(b))\\in E_2
(u,v)∈E1 iff (f(a),f(b))∈E2
f
f
f就是同构关系。
子图的同构问题与上面的包含关系等价。这个是NP-hard的问题
G
2
G_2
G2 is subgraph-isomorphic to
G
1
G_1
G1 if some subgraph of
G
2
G_2
G2 is isomorphic to
G
1
G_1
G1.
可以看到函数
f
f
f不是唯一的的,这里的点顺序可以换一下,不影响结果。
然后给出不同节点数量(大小)的非同构的子图例子(3个节点有向):
4个节点无向:
Determining Motif Significance
有了上面的结论,可以继续往下推,就是一个图结构可以分解为上面的一个个小的子图构成,构成图结构的一个个小的子图就是Motif
Network motifs
概念:recurring, significant patterns of interconnections
实际生活中的例子就是(图片来自百度):
因此得到motif的三个特征:
Pattern: Small (node-induced) subgraph
Recurring: Found many times, i.e., with high frequency
Significant: More frequent than expected, i.e., in randomly generated graphs?
一个motif匹配的例子(induced表示是基于节点的):
Motifs的作用
Help us understand how graphs work.了解图的工作机制
Help us make predictions based on presence or lack of presence in a graph dataset.做主题预测,某个主题往往包含特定的motif,例如社交网络中往往是三角形的motif
例子:
Feed-forward loops: found in networks of neurons, where they neutralize “biological noise”
Parallel loops: found in food webs(食物链?)
Single-input modules: found in gene control networks
subgraph frequency
G
Q
G_Q
GQ是小图,
v
v
v是小图中的某个锚点,
G
T
G_T
GT是目标图
Graph-level Subgraph Frequency Definition.
找出
G
Q
G_Q
GQ在
G
T
G_T
GT中出现的频率:number of unique subsets of nodes
V
T
V_T
VT of
G
T
G_T
GT for which the subgraph of
G
T
G_T
GT induced by the nodes
V
T
V_T
VT is isomorphic to
G
Q
G_Q
GQ
例子:
Node-level Subgraph Frequency Definition:
The number of nodes
𝑢
𝑢
u in
G
T
G_T
GT for which some subgraph of
G
T
G_T
GT is isomorphic to
G
Q
G_Q
GQ and the isomorphism maps
𝑢
𝑢
u to
v
v
v.
记
(
C
Q
,
v
)
(C_Q,v)
(CQ,v)为node-anchored subgraph。这种方法对outlier的鲁棒性较好。
例如:
可以看到中心点只算了一次。
如果
G
T
G_T
GT是多个图,则可以将不同的图看成同一个图的非连通子图进行计算。
Motif significance(重要性/显著性)
意译就是Motif的重要性,主要体现在:现实世界中的图比起随机生成的图具有更加functional significance。
随机图生成法1:ER
ER随机图可以定义为:
G
n
,
p
G_{n,p}
Gn,p,意思是含有
n
n
n个节点的无向图中,每条边
(
u
,
v
)
(u,v)
(u,v)以独立同分布的概率
p
p
p出现,例如:
随机图生成法2:Configuation model
这里的思路感觉有点断断续续,不怎么连贯,一下子突然冒出很多专有名词。
配置模型的目标是以给定的度序列:
k
1
,
k
2
,
⋯
,
k
N
k_1,k_2,\\cdots,k_N
k1,k2,⋯,kN生成一个随机图。他可以作为网络的null model,用来比较具有相同度序列的真实图
G
r
e
a
l
G^{real}
Greal和随机图
G
r
a
n
d
G^{rand}
Grand
Null model的定义:就是随机图,但每个随机图与真实图有相同的节点数量、边数量、度分布相同。
下面是一个configuration model的例子,可以看到节点的度分别是3421,图中叫spokes(条幅),
然后对节点进行两两配对(随机的)
得到生成的图,生成过程中如有重复的边则忽略(上面AB就出现两次,但是结果中只有一条边),有自循环也忽略:
随机图生成法3:Switching
就是交换法,是生成随机图的另外一种方法。
1.给定图
G
G
G
2.重复以下步骤
Q
⋅
∣
E
∣
Q\\cdot |E|
Q⋅∣E∣次
2.1随机选两条边,例如AB和CD
如果没有重复边或自环,交换选中两条边的终点变成:AD和CB
相当于在保证度不变的情况下,随机重新驳接图中的边。
通常
Q
=
100
Q=100
Q=100,该算法可以收敛。
Motif significance 计算步骤
由于在真实图中Motif 出现次数要比随机图多(overrepresented),因此我们的思路就是用随机图来 和实际图进行Motif的频次统计比较,步骤如下:
1: Count motifs in the given graph
G
r
e
a
l
G^{real}
CS224W摘要总纲(已完结)
CS224W摘要10.Knowledge Graph Embeddings