原文《Foundations and modelling of dynamic networks using Dynamic Graph Neural Networks: A survey》介绍一篇关于动态图上的神经网络模型的综述,本篇综述的主要结构是根据动态图上进行表示学习过程的几个阶段(动态图表示、模型学习、模型预测)进行分别阐述。包括
1. 系统的探讨不同维度下的动态图分类方法以及各种方法下的数据表示格式
2. 针对不同类别的动态图归纳目前图表示学习的主流算法模型(encoding部分)
3. 分别讨论在预测阶段的主要方法,包括decoding, loss function, evaluation metrics等。
将网络的动态性理解为两种动态性:dynamics of the network(即网络拓扑结构的变化)和 dynamics on the network(即网络中节点之间的交互作用)。其中dynamics of the network可以看作网络的association process, 而dynamics on the network则看作网络的communicaiton process。而动态图的节点表示学习则是这样两个过程的中间媒介。Association->embedding->communication, communication->embedding->association,网络拓扑结构的变化,带来embedding的变化,而这种变化引起网络中节点的communication,进一步又会带来与之相关节点embedding的变化,从而因此网络结构的变化这样一个循环过程。
一种是通过前s个时刻的embedding预测t时刻,一种是通过上一个时刻预测t时刻,比如kipf and Welling通过将两个节点的embedding的Inner product来预测两点之间是否有边。而DyRep则是通过建模事件发生的条件概率密度的大小来预测事件是否发生,对于一个事件p=(u, v, t, k), u, v 点之间的条件概率密度大小定义为:
B. loss function
i. 链接预测:将链接预测看作一个二分类问题,loss function通常采用二分类的交叉熵,有时候也会采用负采样的做法。
ii. autoencoder方法:重建邻接矩阵的误差最小化作为训练的损失函数,通常也会加入额外的正则项
iii. temporal point process:DyRep通过建模点过程来优化学习过程,在引入事件发生概率密度基础上,损失函数让有边相连的节点间概率密度最大,而无边相连的最小。
C. evalution metrics
i. area under the curve (AUC):评价一个二分类模型,且与阈值无关,AUC即为ROC曲线之下的面积,而ROC曲线是true positive rate和false positive rate之间的曲线关系。
ii. PRAUC:指precision recall曲线下的面积,通常用在信息检索领域中类别分布不均衡的场景下。
iii. Fixed-threshold metrics:precision@k=kr/k, 表示在top k的预测中有kr个预测正确。但此评价指标依赖于k的选择,不同阈值会对结果产生影响,因此一般用在有确定分类阈值的任务中,比如推荐系统等。
iv. Mean average precision (MAP):MAP是average precision(AP)值的平均,计算方式为:
v. Sum of absolute differences (SumD):衡量了被误分类的链接数,false positive的影响较大,因为有大量的边是未出现的,所以一个微小的False positive升高,都会带来结果的极大变化。
vi. Error rate:根据所有存在的链接数量对SumD做了normalize后的结果。
vii. GMAUC:将动态图链接预测看作两个子问题:1. 预测已经存在的边的消失,或者曾经存在的边再次出现。(AUC)2. 预测那些之前从未存在过的边。(PRAUC)。区分并综合考量了新产生的边和之前曾经存在过的边,而不会因为其中一种类型对结果产生影响。