论文阅读|浅读 RIDεRs:Role Discovery in Graphs using Global Features: Algorithms, Applications...

Posted 海轰Pro

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读|浅读 RIDεRs:Role Discovery in Graphs using Global Features: Algorithms, Applications...相关的知识,希望对你有一定的参考价值。

目录

前言

Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
 
自我介绍 ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研。
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
 
唯有努力💪
 

知其然 知其所以然!

 
本文仅记录自己感兴趣的内容

简介

原文链接:https://ieeexplore.ieee.org/abstract/document/7930024

会议:IEEE International Conference on Data Engineering (ICDE CCF A类)

代码:https://github.com/pratikgupte/pyroles

年度:2017/05/18

Abstract

在社会网络分析中,角色概念背后的基本思想是发现具有相似结构特征的行动者

  • 扮演相同角色的行动者具有相似的行为和功能特征
  • 很少有结构角色的例子是桥节点、小集团成员和星形中心

角色发现是指根据网络中节点的结构特征对其进行划分

角色的概念是对社区检测概念的补充,社区检测涉及到将网络划分为有凝聚力的子组

在本文中,我们提出了一种新的算法RIDεRs(使用ε-equitable改进的角色识别和发现):一种提取网络软角色的图划分方法

  • RIDεRs基于网络的全局图特征发现结构角色

由于缺乏真实的角色数据集,评估角色发现的质量是不容易的,我们提出了一个新的框架来评估和比较各种角色发现方法

我们还展示了在不同的图挖掘任务上的有效性:角色识别/发现,以及寻找与给定节点最相似的top-k节点

此外,我们提出的算法在随机幂律图上的经验可扩展性分析表明,我们的方法是高度可扩展性的

I. Introduction

网络中的结构化角色发现是数据挖掘社区[1],[2],[3]中的一个新兴研究领域

角色发现是将网络中的节点根据其结构特征进行划分

这些节点具有相似的特征,如中间中心性、程度中心性和它们所属的三角形数量。
代理节点(连接图的两个组件的节点)、外围节点和小团体成员是很少的示例角色
这些例子角色的定义来自社会科学的基本原则[4],[5]

因此,从大规模网络中自动派生和提取这些结构角色的数据驱动算法是非平凡的

角色发现方法在各种图挖掘任务中的重要性已被确立:

  • 在时间网络中快速过渡到不同的结构角色表示节点[6]的异常行为;
  • 在分类任务[1]中,结构特征用于将知识从一个网络转移到另一个网络,使用角色[7]可以从结构上代表非常大的网络的较小图.

例如,通过从每个角色中按比例抽样节点。

在这项工作中,我们研究了一个重要的任务,即使用角色发现查找与给定查询节点在结构上相似的top-k节点

社区发现是将网络中的节点划分为相关组的另一种方法

  • 社区将网络划分为节点之间紧密连接的子组
  • 这些子组的主要特征是凝聚力、密度和可分离性

另一方面,角色表示节点,这些节点在结构上彼此等价,因此分布在整个网络中

尽管有大量的实际应用,但与社区检测相比,图中的角色发现还没有得到深入的探索


角色发现方法主要分为基于图的方法和基于特征的方法[8]

  • 基于图的角色发现方法通过等价准则将网络划分为不相交的子集(角色)来发现节点之间的结构对应关系。基于图的方法考虑了角色之间的连接模式,以进一步细化角色定义,从而捕获网络中存在的全局线索
  • 另一方面,基于特征的方法利用节点及其邻域之间的局部连通性模式来计算节点特征。这些方法使用结构/网络特定属性特征为图中的每个节点创建一个特征向量。然后,通过执行非负矩阵分解(NMF),使用该节点特征矩阵提取角色成员。

在这项工作中,我们定义并使用了一个新的角色发现框架RIDεRs(使用ε-equitable Refinements进行角色识别和发现)

该框架使用了全局线索和基于特征的方法

  • 首先,我们使用εER (εER)[9]的思想,根据角色之间的连接模式确定图的划分
  • εER的一个主要缺点是,角色的定义取决于ε的选择,ε可以任意设定。对于给定的网络,什么是ε的正确选择并不总是很清楚
  • 我们将ε er的思想与基于特征的角色发现相结合,以克服这种任意性,并基于ε er角色分配(针对不同的ε选择)定义了一个定义良好的角色概念。实验结果表明,该算法优于其他角色发现方法。

这就给我们带来了这项工作的另一个主要贡献——评估角色发现算法的主要困难之一是:由于缺乏角色标签的地面真实数据集,除了在特定的应用环境中,没有明确的评估措施

在这项工作中,我们引入了基于与角色分配的空模型比较的健壮度量

我们认为,一个好的角色发现算法应该与随机角色分配(通过各种局部、egonet和全局图属性来衡量)有很大的不同

我们利用这些稳健的结构措施表明,RIDεRs在所有方面都表现良好,包括局部性能


我们工作的主要贡献如下:

  • 新算法:基于全局图特征的角色发现算法。我们还提出了另一种算法,该算法在角色特征矩阵上引入了稀疏性。
  • 鲁棒的评估框架:评估角色发现方法已经不是微不足道的,可能是由于缺乏基本真实的角色数据集。作者经常将角色应用于各种数据挖掘任务或探索性角色分析,作为评估所发现角色质量的代理。我们提出了一个鲁棒的空模型来评估/比较各种角色发现方法。这允许我们量化在不同粒度级别上发现的角色的质量:全局的、局部的或自我网络的
  • 有效性:我们演示了我们所提出的方法的应用,以查找结构上最类似于查询节点的top-k节点

II. Related Work and Background

A. Graph Based Roles

经典的角色发现方法是利用等价准则将网络划分为不相交的子集(角色)来寻找节点之间的结构对应关系

规则等价[10]、自同构、公平划分[11]等角色发现的概念常常导致网络中节点的平凡划分;

等价类要么有一个巨大的参与者组件,如常规等价,要么有大量的单例,如公平分区、结构等价[12]和自同构

这些方法基于网络的图表示(邻接表/矩阵)来提取角色

他们通过考虑每个节点到网络中所有其他节点/角色的连接模式来提取角色

ε-均匀细化(εER)[9]是一种基于图特征的角色等价概念,与传统的角色提取方法相比有许多优点

  • εER允许扮演相同角色的节点与另一个角色的节点之间的连接数有ε的余地
  • εER的概念在精神上与随机块模型[13]的概念相似,因为这两种方法都允许节点之间的完美等价有界偏差

图论文献[14],[15];基于图的角色发现方法在大型网络中的研究还不广泛,因为其算法的开发难度较大

最近,[9]提出了一种可扩展的算法来寻找图的εER。

B. Feature Based Roles

最近的社交网络角色发现方法都遵循这一方法

这些方法使用结构/网络特定属性特征为图中的每个节点创建特征向量

在[16]中,作者提出了一个递归特征提取框架ReFeX来计算节点特征

  • 该方法从一组预定义的本地和egonet特征开始,然后迭代计算这些特征的平均值和和
  • 每个特征的值被分成垂直对数值
  • 同样,类似的特征,即在某一阈值内对所有节点的值一致的特征,被合并为一个单一的特征
  • 这保证了在迭代特征计算过程中更快的收敛和算法终止

这种方法可扩展到更大的图,尽管其复杂性与特性的数量成正比,并且本质上与计算这些特性所涉及的复杂性成正比


RolX[1]构建在这种发现角色的方法之上

  • 通过执行非负矩阵分解(NMF),利用该节点特征矩阵提取角色成员
  • NMF给出了两个因素:节点-角色(基)矩阵和角色-特征(协效)矩阵
  • 作者使用最小描述长度(MDL)准则来选择这些因素中角色大小的最佳估计

在[6]中,作者将这一思想扩展到对时序网络中的动态行为建模。

[3]最近的工作通过允许额外的凸约束为角色发现方法提供了监督。他们将角色发现建模为一个受约束的NMF问题

这项工作扩展了RolX,在矩阵分解阶段将多样性、稀疏性或可选角色作为凸约束


在我们的工作中,涉及到这项工作与多样性和稀疏性约束的比较研究分别被称为GLRD-D和GLRD-S

最近,作者[2]研究了网络角色和社区的联合分配。

C. Mathematical Preliminaries

Definition 1: ε-Equitable Refinement (εER)

如果满足下面的式子:


则:顶点集 v 1 , v 2 , … , v n \\v_1, v_2,…, v_n\\ v1,v2vn划分为 π = C 1 , C 2 , … , C K π = \\C_1, C_2,…, C_K\\ π=C1,C2CK的,被定义为 ε − e q u i t a b l e r e f i n e m e n t ε-equitable \\quad refinement εequitablerefinement

其中

  • d e g ( v i , C j ) deg(v_i, C_j) deg(vi,Cj)表示cell C j C_j Cj中与顶点 v i v_i vi相邻的顶点数

ε-equitable精化可以用来定义网络中的角色;

  • 每个单元 C j C_j Cj对应一个角色
  • d e g ( v i , C j ) deg(v_i, C_j) deg(vi,Cj)对应参与者 v i v_i vi与角色 C j C_j Cj的连接数

上述定义对公平分区[11]的严格分区条件提出了一个放松,现在等效的参与者可以在分区中与其他cells/roles的连接数上有ε的差异


εER算法[9]以顶点集V上的有序划分 π π π、松弛参数 ε ε ε和图 G G G为输入

  1. 初始划分通常是图 G G G的一个单位划分
  2. 活动列表(active list)用于保存从 π π π开始的所有未处理单元的索引,并在细化过程的每次迭代中更新
  3. C a C_a Ca是分划 π π π的当前活动单元格(current active cell)的顶点集合。因此,单元划分的初始活动单元 C a C_a Ca就是整个顶点集 V V V
  4. 另外,使用一个函数 f f f,它将每个顶点 u ∈ V u∈V uV映射到 C a C_a Ca的度
  5. 然后,该过程使用函数 f f f分配给每个顶点的值作为键对分区中每个单元格中的顶点进行排序(按升序)
  6. 然后,当单元格的成员节点之间的距离大于 ε ε ε时,该过程将拆分每个单元格的内容,从而创建新的单元格( cells)
  7. 相应地更新分区π,并将分裂后形成的任何新单元对应的索引添加到活动列表中
  8. 当活动列表为空或εER成为一个独立的分区时,该过程退出

εER通过考虑每个节点到网络中所有其他节点/角色的连接模式来提取角色

注意,其他节点的角色依次依赖于它们的邻居,依此类推
因此,εER角色捕捉了图的全局视图

这里值得注意的是,对于一个给定的 ε ε ε值,可以有多个ε-均匀细化满足定义1

对于我们提出的算法2(RIDεRs),我们总是从基于顶点度排序的图的单位划分开始

这确保了εER对于给定的 < G , ε > < G, ε > <Gε>对总是相同的


Definition 2: Non-negative Matrix Factorization (NMF)

非负矩阵分解(NMF)

给定一个矩阵 A A A N M F NMF NMF近似 A ≈ W H A≈WH AWH如下:


其中

  • W W W H H H分别是基和系数矩阵

在角色发现的背景下,给定一个 n × f n× f n×f节点特征矩阵 A A A

A A A N M F NMF NMF给出了两个因子: n × r n× r n×r节点特征矩阵 W W W r × f r × f r×f角色特征矩阵 H H H

非负性约束有助于简化数据分析

Definition 3: NodeSense

NodeSense捕获一组预定义的节点测量值对方法发现的每个角色的贡献

节点测量值 :如中间度、加权度

NodeSense的定义如下:

给定 n × r n × r n×r节点角色矩阵 W W W n × m n × m n×m节点测量值 M M M的矩阵,定义每个 角色 i i i测量值 j j j 的NodeSense[1]如下:


其中