CS224W摘要12.Frequent Subgraph Mining with GNNs

Posted oldmao_2000

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CS224W摘要12.Frequent Subgraph Mining with GNNs相关的知识,希望对你有一定的参考价值。


CS224W: Machine Learning with Graphs
公式输入请参考: 在线Latex公式
本节课三部分内容
子图的概念和定义,其重要性指标。
子图的表征,如果用GNN的方式进行子图的表征
子图频率的挖掘

Subgraph and Motifs

先要明确子图的概念,就好比乐高中的模块一样,不能切分太小,又不能切分太多,如何识别出图中的子图模块。

Definitionn of Subgraphs

有两种。Given graph 𝑮 = (𝑽, 𝑬)
选择的方式主要看应用,例如:
Chemistry: node-induced (functional groups)
Knowledge graphs: Often edge-induced (focus is on edges representing logical relations)

Node-induced subgraph

Take subset of the nodes and all edges induced by the nodes:
G ′ = ( 𝑉 ′ , 𝐸 ′ ) G' = (𝑉', 𝐸') G=(V,E) is a node induced subgraph iff
𝑉 ′ ⊈ V 𝑉'\\nsubseteq V VV
𝐸 ′ = { ( 𝑢 , 𝑣 ) ∈ 𝐸 ∣ 𝑢 , 𝑣 ∈ 𝑉 ′ } 𝐸′ = \\{(𝑢, 𝑣) ∈ 𝐸 | 𝑢, 𝑣 ∈ 𝑉'\\} E={(u,v)Eu,vV}
𝐺 ′ 𝐺' G is the subgraph of 𝐺 induced by 𝑉 ′ 𝑉' V
也叫:induced subgraph由节点集决定的子图

Edge-induced subgraph

Take subset of the edges and all corresponding nodes
G ′ = ( 𝑉 ′ , 𝐸 ′ ) G' = (𝑉', 𝐸') G=(V,E) is an edge induced subgraph iff
𝐸 ′ ⊆ 𝐸 𝐸' ⊆ 𝐸 EE
𝑉 ′ = { 𝑣 ∈ 𝑉 ∣ ( 𝑣 , 𝑢 ) ∈ 𝐸 ′  for some  𝑢 } 𝑉'=\\{𝑣∈𝑉|(𝑣,𝑢)∈𝐸′\\text{ for some }𝑢\\} V={vV(v,u)E for some u}
也叫:“non-induced subgraph” or just “subgraph”,较少用

contained subgraph

上面两种子图定义都是针对从源图中取的子图,如果节点或者边是来自不同的图:

那么我们把两个图称为包含关系。确定包含关系的关键之处就是确定图是否同构。

Graph isomorphism

由于节点的无序性,同构可能是NP-hard的问题(未证明),具体定义如下:
如果两个图存在一个双射函数(bijection function) f f f,使得:
( u , v ) ∈ E 1  iff  ( f ( a ) , f ( b ) ) ∈ E 2 (u,v)\\in E_1 \\text{ iff }(f(a),f(b))\\in E_2 (u,v)E1 iff (f(a),f(b))E2
f f f就是同构关系。

子图的同构问题与上面的包含关系等价。这个是NP-hard的问题

G 2 G_2 G2 is subgraph-isomorphic to G 1 G_1 G1 if some subgraph of G 2 G_2 G2 is isomorphic to G 1 G_1 G1.

可以看到函数 f f f不是唯一的的,这里的点顺序可以换一下,不影响结果。

然后给出不同节点数量(大小)的非同构的子图例子(3个节点有向):

4个节点无向:

Determining Motif Significance

有了上面的结论,可以继续往下推,就是一个图结构可以分解为上面的一个个小的子图构成,构成图结构的一个个小的子图就是Motif

Network motifs

概念:recurring, significant patterns of interconnections
实际生活中的例子就是(图片来自百度):

因此得到motif的三个特征:
Pattern: Small (node-induced) subgraph
Recurring: Found many times, i.e., with high frequency
Significant: More frequent than expected, i.e., in randomly generated graphs?

一个motif匹配的例子(induced表示是基于节点的):

Motifs的作用

Help us understand how graphs work.了解图的工作机制
Help us make predictions based on presence or lack of presence in a graph dataset.做主题预测,某个主题往往包含特定的motif,例如社交网络中往往是三角形的motif
例子:
Feed-forward loops: found in networks of neurons, where they neutralize “biological noise”

Parallel loops: found in food webs(食物链?)

Single-input modules: found in gene control networks

subgraph frequency

G Q G_Q GQ是小图, v v v是小图中的某个锚点, G T G_T GT是目标图
Graph-level Subgraph Frequency Definition.
找出 G Q G_Q GQ G T G_T GT中出现的频率:number of unique subsets of nodes V T V_T VT of G T G_T GT for which the subgraph of G T G_T GT induced by the nodes V T V_T VT is isomorphic to G Q G_Q GQ
例子:

Node-level Subgraph Frequency Definition:
The number of nodes 𝑢 𝑢 u in G T G_T GT for which some subgraph of G T G_T GT is isomorphic to G Q G_Q GQ and the isomorphism maps 𝑢 𝑢 u to v v v.
( C Q , v ) (C_Q,v) (CQ,v)为node-anchored subgraph。这种方法对outlier的鲁棒性较好。
例如:


可以看到中心点只算了一次。
如果 G T G_T GT是多个图,则可以将不同的图看成同一个图的非连通子图进行计算。

Motif significance(重要性/显著性)

意译就是Motif的重要性,主要体现在:现实世界中的图比起随机生成的图具有更加functional significance。

随机图生成法1:ER

ER随机图可以定义为: G n , p G_{n,p} Gn,p,意思是含有 n n n个节点的无向图中,每条边 ( u , v ) (u,v) (u,v)以独立同分布的概率 p p p出现,例如:

随机图生成法2:Configuation model

这里的思路感觉有点断断续续,不怎么连贯,一下子突然冒出很多专有名词。
配置模型的目标是以给定的度序列: k 1 , k 2 , ⋯   , k N k_1,k_2,\\cdots,k_N k1,k2,,kN生成一个随机图。他可以作为网络的null model,用来比较具有相同度序列的真实图 G r e a l G^{real} Greal和随机图 G r a n d G^{rand} Grand


Null model的定义:就是随机图,但每个随机图与真实图有相同的节点数量、边数量、度分布相同。
下面是一个configuration model的例子,可以看到节点的度分别是3421,图中叫spokes(条幅),

然后对节点进行两两配对(随机的)

得到生成的图,生成过程中如有重复的边则忽略(上面AB就出现两次,但是结果中只有一条边),有自循环也忽略:

随机图生成法3:Switching

就是交换法,是生成随机图的另外一种方法。
1.给定图 G G G

2.重复以下步骤 Q ⋅ ∣ E ∣ Q\\cdot |E| QE
2.1随机选两条边,例如AB和CD

如果没有重复边或自环,交换选中两条边的终点变成:AD和CB

相当于在保证度不变的情况下,随机重新驳接图中的边。
通常 Q = 100 Q=100 Q=100,该算法可以收敛。

Motif significance 计算步骤

由于在真实图中Motif 出现次数要比随机图多(overrepresented),因此我们的思路就是用随机图来 和实际图进行Motif的频次统计比较,步骤如下:
1: Count motifs in the given graph G r e a l G^{real} CS224W摘要总纲(已完结)

CS224W摘要总纲(已完结)

CS224W摘要10.Knowledge Graph Embeddings

CS224W摘要03.Node Embedding

CS224W摘要05.Message passin and Node classification

CS224W摘要15.Deep Generative Models for Graphs