论文阅读|浅读PGE:A Representation Learning Framework for Property Graphs

Posted 海轰Pro

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读|浅读PGE:A Representation Learning Framework for Property Graphs相关的知识,希望对你有一定的参考价值。

目录

前言

Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
 
自我介绍 ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研。
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
 
唯有努力💪
 

知其然 知其所以然!

 
本文仅记录自己感兴趣的内容

简介

原文链接:https://dl.acm.org/doi/10.1145/3292500.3330948

会议:KDD '19: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (CCF A类)

代码:https://github.com/yifan-h/PGE

年度:2019/07/25

ABSTRACT

图上的表示学习,也称为图嵌入,已经证明了其对一系列机器学习应用的重大影响,如分类,预测和推荐

然而,在现代应用中,已有的工作在很大程度上忽略了图的节点和边的属性(或属性)所包含的丰富信息,例如用属性图表示的图

迄今为止,大多数现有的图嵌入方法要么只关注图拓扑的纯图,要么只考虑节点的属性

我们提出了一种图表示学习框架PGE,它将节点和边的属性合并到图嵌入过程中

  • PGE通过节点聚类分配偏差来区分节点的邻居,并利用多个数据驱动矩阵来聚合基于偏差策略抽样的邻居的属性信息
  • PGE采用了流行的归纳模型( inductive model)进行邻域聚合

1 INTRODUCTION

由于可以灵活地在广泛的应用程序中使用图来建模数据,因此图在今天是无处不在的

近年来,越来越多的机器学习应用基于图数据进行分类或预测[7,15,17,28]

例如对生物图中的蛋白质功能进行分类
理解在线社交网络中的用户关系
在线电商平台的买家-产品-卖家图中的购买模式进行预测

然而,由于图数据是高维的、非欧几里得的,在这些应用中不容易直接利用图的结构信息

另一方面,仅考虑度[6]、核函数[14]、局部邻域结构[24]等图统计信息往往有限,从而影响分类/预测的准确性。


表示学习方法[5]试图通过在图中构造每个节点的嵌入,即将节点映射到低维欧几里得空间的向量,利用嵌入空间中的几何度量(如欧几里得距离)来表示结构信息,来解决上述问题

这类图嵌入[15,17]在纯图(即只有纯拓扑、没有节点/边标签和属性的图)上取得了很好的分类/预测性能

然而,在实践中,现实世界中的大多数图不仅包含拓扑信息,还包含实体(即节点)和关系(即边)上的标签和属性(也称为属性)

例如,在我们合作的公司,他们的大多数图表(例如,各种各样的图表与产品,买家和卖家从一个在线电子商务平台;
移动电话呼叫网络和来自服务提供商的其他通信网络包含丰富的节点属性(例如,用户资料,产品细节)和边缘属性(例如,交易记录,电话细节

我们称这种图为属性图

现有的方法[10,16,18,22,30,31,36]没有考虑将节点和边所携带的丰富信息纳入图嵌入过程


本文研究了属性图的嵌入问题。主要有两个挑战

  • 首先,每个节点 v v v可能有很多属性,对于特定的应用,很难发现哪些属性可能对 v v v有更大的影响
    • 例如,考虑将论文分类为引用图的不同主题,其中节点表示论文,边表示引用关系
    • 假设每个节点都有两个属性,“year”和“title”
    • 显然,对于纸张分类来说,属性“标题”可能比属性“年份”更重要
    • 因此,需要考虑如何衡量属性对不同应用程序的每个节点的影响
  • 其次,对于每个节点 v v v,它的邻居以及连接的边可能具有不同的属性。对于不同的应用,如何度量相邻边和连接边对 v v v的影响是另一个挑战
    • 在上述例子中,对于引用目标论文的论文,高被引比低被引对目标论文的意义更大

在已有的工作中

  • GCN[22]利用节点属性信息来生成节点嵌入
  • GraphSAGE[18]将GCN从光谱方法扩展到空间方法。给定一个应用程序,GraphSAGE在嵌入之前训练一个权重矩阵,然后用训练好的矩阵将每个节点邻居的属性信息聚合起来,计算节点嵌入。但是,GraphSAGE不区分每个节点具有不同属性的邻居,而是在聚合它们的属性信息时平等地对待所有邻居。此外,GraphSAGE只考虑节点信息,而忽略边缘方向和属性。除了节点/边的属性,现实世界的图还有特殊的结构特征
    • 例如,在社交网络中,节点往往以社区的形式组织,其中相似的节点要么由于同质性特征而成为邻居[3,4],要么由于结构等效特征而不是直接邻居,但具有相似的结构[13,19,37]
  • 因此,考虑结构特征也是很重要的。为此,node2vec[16]通过结合宽度优先随机游走和深度优先随机游走两种策略来学习节点嵌入,以考虑同质性特征和结构等效特征。但是,node2vec只利用了这两个结构特性,没有考虑任何属性信息。

为了解决现有方法的局限性,我们提出了一个新的属性图嵌入框架——PGE

该算法将拓扑信息和属性信息结合到图嵌入过程中,采用一种有偏差的方法来区分邻居和相应连接边的影响

该框架包括三个主要步骤:

  • (1)基于属性的节点聚类,根据节点与该节点的属性相似性将其邻域划分为相似组和不相似组
  • (2)偏置邻域采样,根据偏置参数(根据聚类结果设置)采样得到较小的邻域,使嵌入过程更具可扩展性;
  • (3)邻域聚合,利用神经网络训练的权值矩阵对采样邻域的属性信息进行聚合,计算出最终的低维节点嵌入

我们还详细分析了这三个步骤是如何协同工作以实现良好的图嵌入的,以及为什么我们的有偏方法(结合节点和边缘信息)可以比现有方法获得更好的嵌入结果

我们通过比较具有代表性的图嵌入方法来验证PGE的性能,这些方法包括

  • DeepWalk[30]
  • node2vec[16]表示基于随机行走的方法
  • GCN[22]表示图卷积网络
  • GraphSAGE[18]表示基于权值矩阵的邻居聚合

我们针对两个基准应用程序(节点分类和链接预测)在各种真实的图上测试了这些方法

结果表明,与现有的这些方法相比,PGE取得了显著的性能改善

实验验证了除拓扑信息外,结合节点/边缘属性信息对图嵌入的重要性

它也证明了我们有偏见的策略的有效性,区分邻居,以获得更好的嵌入结果

2 RELATED WORK

图的嵌入主要有三种方法:矩阵分解、随机游走和邻居聚合。

对于矩阵分解方法

  • [2,8]使用邻接矩阵定义和度量节点之间的相似度,用于图嵌入
  • HOPE[29]进一步保持了有向图的高阶接近性,并获得了有向图的非对称传递性

另一项工作利用随机漫步统计来学习使用跳跃图模型[26]的嵌入,该模型应用向量表示来捕获单词关系。

随机漫步的关键思想是,如果节点具有类似的嵌入[17],它们通常倾向于在短的随机漫步中发生

  • DeepWalk[30]是第一个将随机行走路径输入到一个skipgram模型中,用于学习节点嵌入。
  • Node2vec[16]进一步利用有偏随机游走改进节点到低维空间的映射,同时结合宽度优先游走和深度优先游走考虑图同质性和结构等价性
  • 为了获得更大的关系,Walklets[31]涉及偏移量,以允许在随机游走期间进行更长的步长
  • 而HARP[10]利用图预处理,将一些节点压缩为一个超级节点,以改善随机游走。

根据[17],矩阵分解和随机游走方法属于浅嵌入方法,存在以下缺点:

  • 首先,由于节点嵌入是独立的,没有共享参数或函数,这些方法对于处理大型图来说效率不高
  • 其次,它们不考虑节点/边属性
  • 第三,由于嵌入具有转导性,并且只能在训练阶段生成,所以到目前为止,看不到的节点不能嵌入到正在学习的模型中。

为了解决(部分)上述问题,基于图的神经网络被用于学习节点嵌入,它通过压缩邻域信息将节点编码为向量[9,20,36]

然而,尽管这类方法可以共享参数,但严格来说,它们仍然具有转导性,并且在处理大型图时存在性能瓶颈,因为自编码器的输入维度与节点数量相等

  • 最近的一些研究[11,18,22,23,34]尝试只使用局部邻域而不是整个图通过邻域聚合来学习节点嵌入,这种方法也可以考虑节点上的属性信息
  • GCN[22]使用图卷积网络学习节点嵌入,通过合并局部图结构和节点特征,从隐藏层中获得嵌入
  • GraphSAGE[18]是归纳的,能够通过其训练有素的自动编码器直接捕获不可见节点的嵌入。

邻域聚合方法的优点在于它不仅考虑了拓扑信息,而且通过聚合邻域的属性向量来计算嵌入

但现有的邻域聚合方法对邻居的属性信息一视同仁,无法区分具有不同属性的邻居(及其连接边)的影响

3 THE PGE FRAMEWORK

3.1 Problem Definition

3.2 The Three Steps of PGE



4 AN ANALYSIS OF PGE

在本节中,我们将对PGE进行详细的分析。特别地,我们分析了为什么在PGE中使用有偏策略可以提高嵌入结果。我们还讨论了偏差值 b d b_d bd b s b_s bs以及边缘信息对嵌入性能的影响

4.1 The Efficacy of the Biased Strategy

5 EXPERIMENTAL EVALUATION

5.1 Node Classification

5.2 Link Prediction

5.3 Parameter Sensitivity Tests


6 CONCLUSIONS

我们提出了一种用于属性图嵌入的表示学习框架,称为PGE

该算法的核心思想是分三步进行,利用拓扑信息和属性信息来获得更好的节点嵌入结果

我们的实验结果验证了PGE通过将属性图中包含的更丰富的信息引入到嵌入过程中,获得了比现有的DeepWalk[30]、node2vec[16]、GCN[22]、GraphSAGE[18]等图嵌入方法更好的性能

PGE是MindSpore GNN库的关键组件,是华为全栈、全场景AI组合中针对设备、边缘和云的统一训练和推理框架,在华为移动服务、云服务和5G物联网应用中具有广泛的应用,如推荐。

读后总结

文章笔记参考:https://blog.csdn.net/yyl424525/article/details/103265740

2022/07/11 读后总结

emmm 不知道咋了 咋越看越看不懂了???

目前只理解到:

  1. 首先先依据节点的属性对所有节点进行聚类(若边有属性/标签的话 也先进行聚类)
  2. 然后依次遍历节点,计算其与一阶邻域的bias(两个)
  3. 依据bias和采样节点数,对每一个节点进行采样,得到采样图
  4. 然后依据损失函数聚合一阶、二阶邻居的信息(使用的GCN吗? 还是啥)
  5. 最终得到最后的嵌入 z u z_u zu

emmm, 目前只懂了这些

状态不好 过段时间再仔细研究!

结语

文章仅作为个人学习笔记记录,记录从0到1的一个过程

希望对您有一点点帮助,如有错误欢迎小伙伴指正

以上是关于论文阅读|浅读PGE:A Representation Learning Framework for Property Graphs的主要内容,如果未能解决你的问题,请参考以下文章

论文阅读|浅读DeepEmLAN: Deep embedding learning for attributed networks

论文阅读|浅读RolX: Structural Role Extraction & Mining in Large Graphs

论文阅读|浅读DMER:Deep Mutual Encode Model for Network Embedding From Structural Identity

论文阅读|浅读 RIDεRs:Role Discovery in Graphs using Global Features: Algorithms, Applications...

论文阅读|浅读GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training

论文阅读|浅读GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training