论文阅读｜深读Net2Net-NE：Learning Network-to-Network Model for Content-rich Network Embedding

Posted 2022-07-14 海轰Pro

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文阅读｜深读Net2Net-NE：Learning Network-to-Network Model for Content-rich Network Embedding相关的知识，希望对你有一定的参考价值。

前言

Hello！
非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～

自我介绍 ଘ(੭ˊᵕˋ)੭
昵称：海轰
标签：程序猿｜C++选手｜学生
简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金，有幸在竞赛中拿过一些国奖、省奖…已保研。
学习经验：扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语！

唯有努力💪

知其然知其所以然！

本文仅记录自己感兴趣的内容

简介

原文链接：https://dl.acm.org/doi/10.1145/3292500.3330924

代码链接：https://github.com/NKU-IIPLab/Net2Net-NE

会议：KDD '19: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining （CCF A类）

年度：2019/07/25

ABSTRACT

近年来，网络嵌入(network embedding, NE)在学习网络节点的低维表示方面取得了很大的成功，并越来越多地应用于各种网络分析任务中

本文研究了具有丰富内容信息的节点的富内容网络的表示学习问题

内容丰富的网络嵌入在融合复杂的结构依赖关系和丰富的内容方面具有挑战性

为了应对这一挑战，我们提出了一个生成模型——网络到网络的网络嵌入(Net2Net-NE)模型，该模型可以有效地将每个节点的结构和内容信息融合为一个连续的嵌入向量

具体而言，我们将内容丰富网络看作是一对具有不同形态的网络，即内容网络和节点网络

利用焦点节点与所连接节点之间的强相关性，提出了一种多层递归可组合编码器
将整个ego网络的结构和内容信息融合到ego中心节点嵌入中

此外，跨模态解码器部署到映射ego中心节点嵌入到节点身份在互联网络

根据每个节点的内容学习其身份，以生成式的方式学习从内容网络到节点网络的映射

因此，Net2Net-NE学习到的潜在编码向量可以作为有效的节点嵌入

1 INTRODUCTION

近年来，网络嵌入(network embedding, NE)引起了广泛的研究兴趣，并被广泛认为是网络分析应用中的一种新范式

NE的目标是通过保留网络节点的结构信息来学习网络节点的低维向量表示，从而使现成的机器学习模型可以应用于节点分类[31][13]、链路预测[45][51]、网络可视化[37][44]等下游分析任务

然而，这一领域的一个关键的开放挑战是开发可以直接学习网络表示的方法，以一种无监督学习方式融合来自给定网络的结构和内容信息

而经典的NE方法则是基于随机游动[31][13]、本地邻居[37][44]或其他高级结构信息[32][29][30]来学习节点表示

这种纯结构模型无法兼顾丰富的内容信息
因此，学习到的表示是次优的

深度神经网络模型的最新进展，如CNN和RNN，在图像和文本数据等复杂领域的建模方面取得了重要进展

在这些方法的基础上，人们提出了许多用于网络嵌入的深度学习模型[2][18][15][43]

Battaglia等人总结了目前的研究成果，提出了一种用于网络结构数据的深度学习框架[2]
Kipf等人提出了一种基于图卷积[18]的半监督框架
而Velickovic等人则为内容丰富的网络[43]提出了一种基于注意力的方法

但是，这些方法主要关注节点间基于内容的亲缘关系，没有专门用于结构信息学习的策略，因此对保留结构信息有一定的限制

此外，这些模型是在监督方案中学习的, 学习到的表示仅限于特定的任务，不适用于下游的各种任务

在本文中，我们提出了一种新的网络到网络的网络嵌入(Net2Net - NE)模型

为了更好地捕获和融合内容和结构语义信息，我们开发了一个基于编码器-解码器的生成模型，建立了从内容到结构的映射

我们方法的关键是身份生成的内容网络编码器和解码器，具体地说

首先推导出一对网络，即节点内容网络和节点标识网络，它们可以看作是用两种不同的方式描述原始网络的并行网络
通过学习两个并行网络之间的映射关系，Net2Net-NE模型可以学习有效的网络表示

编码器对每个网络节点的内容信息进行编码

由于我们提出的Net2Net-NE方法实际上是一个通用的框架，有几种可选的方法可以作为编码器，如GCN [18]， GAT[43]等

在我们的实现中，为了更好地编码内容网络，我们提出了一个分层的ego中心内容网络编码器（hierarchical egocentric content network encoder）

在每个节点的ego网络中，通过一种新颖的可递归组合和排列不变的编码器集成局部语义和结构信息，使我们能够控制考虑的内容信息的顺序

所提出的ego网络编码器具有直观的解释性和良好的扩展性

在内容网络编码器之上，进一步设计了一个跨模式解码器（ cross-modal decoder），将节点内容嵌入映射到它们的身份（ map the node content embeddings to their identities.）

该解码器基于ego网络的同质性假设，认为在一个ego网络中， focal node与 alters之间存在很强的相关性

单个节点的ego中心结构很重要，因为它描述了该节点如何连接到其他节点，并定义了其在全局网络中的结构角色

通过这种方式，我们的网络到网络的方法能够从内容编码的上下文向量恢复网络结构

因此，解码器可以指导我们的网络到网络模型学习有效的网络编码表示

在现实网络上的大量实验结果表明，自我中心节点嵌入不仅能更好地完成下游任务，而且保持了ego网络的特征

最后，我们作出了以下几个值得注意的贡献:

我们提出了一种原则性的编码器-解码器框架，该框架嵌入原始内容和结构信息，并以自我中心网络-网络的方式学习从输入网络到嵌入空间的映射。通过引入身份网络生成技术，将GNN、GCN及其扩展等主流网元方法进行了改进，使捕获更多的结构和上下文语义信息，从而实现结构和内容信息的无缝融合
我们开发了一个网络到网络的网络嵌入模型，它有效地实现了生成网络编码器-解码器框架。该模型能够嵌入原始输入文本，并通过端到端的方式学习从节点内容网络到节点标识网络的映射。
对现实世界的网络数据集进行了大量的实验分析。结果表明，该模型提高了下游任务的性能。

2 RELATED WORK

近年来，网络嵌入已经成为学习用于网络分析任务的低维节点嵌入的一种范式

它旨在通过保留网络中的结构和属性信息来学习低维向量表示，从而使现成的机器学习算法可以直接应用于下游任务

在本节中，我们简要回顾了一些具有代表性的网络嵌入模型，详细的调查可以参考[4][7][10][12][14][50]

传统上，网络用图表示。然后利用数据点的特征向量构造亲和图[33]

这样，通过学习低维表示，亲和力图就可以嵌入到低维空间中

广泛的图嵌入方法已经被提出，如多维尺度[9]，IsoMap [39]， LLE[33]和Laplacian特征映射[3]

由于依赖于求解亲和矩阵的主导特征向量，计算复杂度是一个关键的瓶颈，使其在实际应用中效率低下

近年来，网络嵌入已经成为一个活跃的研究问题

DeepWalk[31]在网络上进行随机漫步，并引入了一个高效的词表示学习模型——skip-gram[27]来学习网络嵌入
LINE[37]优化了大规模网络中边的联合概率和条件概率
Node2vec[13]设计了一种有偏随机游走，以更有效地探索网络结构。所有这些方法都只考虑一阶和/或二阶近似，以保留微观和局部结构
Cao等人[5]提出了捕获高阶邻近性的方法
Zhang等人[51]提出了一种新颖的NE模型，该模型可以在任意阶的邻近点之间移动
Wang et al.[46]引入了任务特定结构，即社区模块，以考虑更高阶的接近性
Tu等[42]提出了利用结构等效学习网络嵌入

从本质上讲，这些方法关注的是两两关系或抽样节点序列，未能利用完整的结构信息

相反，我们的建议通过考虑完整的局部结构来解决这个问题

除了网络拓扑信息外，还可以考虑异构信息[6][16][47]、监督标签信息[41][20][8]、节点特性[48][49][30]等

而在本文中，我们主要关注节点内容信息。

为了考虑到内容

Yang等人提出了文本相关的DeepWalk (TADW)[48]来融合文本信息
TriDNR[30]将段落向量模型[19]与DeepWalk结合起来，合并了节点-词和标签-词的关系。在建立了单词、文档和标签的网络之后
Tang等人进一步提出了PTE[36]来从中学习文本表示
在LINE模型的基础上，CANE[40]进一步用一种相互的方式对节点对之间的语义关系进行建模
Sun等人将文本内容作为一种特殊的节点，提出了上下文增强网络嵌入(CENE)[35]
Wang等人提出用一个概率生成模型[45]融合word-document、document-document和document-label关系
Liu等人提出了一个基于seq2seq的框架，将文本内容转换为节点标识[22]

我们的Net2Net - NE模型还利用了节点的原始内容信息，其中内容表示以ego为中心的方式聚合到焦点节点

ego网络是社会网络分析中的一个热点研究问题

在网络分析任务中分析了自我网络的各种性质，如介乎性[11]和中心性[23]

我们基于ego网络的常备假设，即焦点节点与变更节点之间的同质性来构建我们的模型

3 PROBLEM FORMULATION

我们建议在学习低维节点嵌入的同时保留完整的局部结构

在这项工作中，我们考虑了内容丰富的网络，其中节点伴随着丰富的内容

在介绍我们的方法的技术细节之前，下面给出基本的符号和定义

Definition 1: Content-rich Network

假设有一个网络 $G = (V, E)$ ，其中

$V$ 是所有节点的集合
$E$ 是这些节点之间所有边的集合，即 $E \subset V \times V$
对于每个节点 $u$ , $u_i$ 是节点 $u$ 的标识， $u_c$ 是与 $u$ 相关的内容
每条边 $e_u,w∈E$ 表示两个节点 $(u, w)$ 之间的关系

在本文中，为了便于描述，我们只考虑无向和无权网络

然而，所提出的方法可以很容易推广到有向图和加权图

网络嵌入的目的是对每个节点 $u \in V$ 学习一个低维表示 $x∈R^k$ ，其中 $k$ 是表示空间的维数，期望远小于 $∣ V ∣$

学习到的表示对网络中节点的语义内容和结构信息进行编码，可用于下游的分析任务

在本文中，我们的目标是学习基于节点的ego网络的ego中心嵌入

Definition 2: Ego Network.

给定网络 $G$ 中的一个节点 $u$ ，由 $u$ 和它的邻居节点 $w∈N_(u)$ ，以及它们之间的边组成的子图称为 $u$ 的ego网络，记作 $G^u =(V^u, E^u)$ ，其中

$N_(u)$ 为邻居节点集
$V^u = \\u\\∪N_(u)$ 表示 $G^u$ 的节点集
$E^u$ 包含 $G^u$ 的边

在 $G^u$ 中

$u$ 被称为焦点节点或ego
而其他节点被称为alters

在网络分析中， $u$ 的高阶邻居也可以通过 snowball sampling[28]作为 $G^u$ 的改变量

但是，作为一个原型，我们只考虑一阶近邻，对高阶近邻进行递归处理，即alters的alters

高阶通过一阶的递归就可以得到

而且，ego与alters关系不是决定性的，而是相对的

假设节点 $u$ 和 $w$ 相互连接， $u$ 是 $G^u$ 中的焦点节点， $w$ 是其中一个alters节点
然而， $G^w$ 的情况恰恰相反

在一个ego网络中， $u$ 可能是焦点节点，但是再另一个ego网络中， $u$ 可能是一个alters节点

这就是ego中心的意思，即每个节点都是自己的ego网络中的焦点节点或ego

关于ego网络的一个站定的假设是ego与alters之间的同质性

也就是说，节点在关键属性上，如引文网络中的研究主题，与其他与自己相似的节点有很强的联系
为了学习以ego为中心的节点嵌入，我们定义了一个基于同质性假设的跨模式生成任务，这是提出的Net2Net-NE模型的目标

Definition 3: Node Identification

给定ego网络 $G^u$ ，节点识别是学习焦点节点 $u^i$ 在其ego网络 $p(u^i |G^u)$ 下的身份生成概率

Given an ego network $G^u$ , node identification is to learn the generative probability of the focal node’s identity $u^i$ given its ego network, i.e., $p(u^i |G^u)$

我们以ego中心（ egocentric manner）的方式解决了节点识别问题

在节点 $u$ 的ego网络 $G^u$ 中
$u$ 和 $w∈N_(u)$ 所携带的所有内容和结构信息都将被有效地整合到节点 $u$ 的嵌入向量中
而在 $u$ 的邻居节点 $w$ 的ego网络 $G^w$ 中，反过来 $u$ 的内容和结构信息会被整合到 $w$ 的嵌入中

因此，学习到的节点嵌入不仅以ego为中心，而且具有内在的联系

图1说明了我们所提议的方法的概述

图1: 网络到网络的网络嵌入框架
每个节点都是由整个局部结构构建的自我网络中的焦点节点
在每个自我网络中，通过一个网络到网络的编码器-解码器框架解决节点识别问题，学习焦点节点的自我中心节点嵌入

对于给定的内容丰富的网络

将每个节点 $u$ 作为其自身及其邻域 $N_(u)$ 组成的自我网络的焦点节点，设计一个网络到网络的模型来学习从 $u$ 的自我网络 $G^u$ 到其同一性 $u_i$ 的跨模态映射
并利用自我网络编码器的潜在表征作为 $u$ 对下游各种任务的ego中心嵌入

4 METHODOLOGY

在本文中，我们提出了一种新的学习ego中心网络嵌入的模型，即Net2Net-NE

其概述如图1所示

基本上，我们提出了一个由分层内容编码器和跨模态解码器组成的深度架构

Net2Net-NE的关键点是编码器-解码器过程，该过程将ego网络的局部内容图转换为焦点节点的身份

图2说明了Net2Net - NE的总体框架

首先对网络中的每个节点提取ego网络
- ego网络由一个焦点节点、几个节点和它们之间的边组成
- 例如，ego网络 $G^u_1$