每日一读ALG: Fast and Accurate Active Learning Framework for Graph Convolutional Networks
Posted 海轰Pro
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了每日一读ALG: Fast and Accurate Active Learning Framework for Graph Convolutional Networks相关的知识,希望对你有一定的参考价值。
目录
简介
Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
唯有努力💪
【每日一读】每天浅读一篇论文,了解专业前沿知识,培养阅读习惯(阅读记录 仅供参考)
简介
原文链接:https://dl.acm.org/doi/10.1145/3448016.3457325
会议:SIGMOD '21: Proceedings of the 2021 International Conference on Management of Data (CCF A类)
年度:2021年6月18日
ABSTRACT
图卷积网络 (GCN) 已成为许多监督和半监督图表示学习场景中最先进的方法
为了达到令人满意的性能,GCN 需要足够数量的标记数据
然而,在现实世界的场景中,标记数据的获取成本通常很高。因此,我们提出了 ALG,这是一种用于 GCN 的新型主动学习框架,与通用 AL 框架相比,它采用特定领域的智能来实现更高的性能和效率
- 首先,通过解耦 GCN 模型,ALG 作为一个有效和高效的 AL 框架来衡量和结合节点的代表性和信息性
- 其次,通过利用 GCN 中接收场的特性,ALG 通过提出最大化有效接收场(ERF)的新节点选择度量来考虑节点的重要性和相关性
我们证明了这个 ERF 最大化问题是 NP-hard 问题,并提供了一种有效的算法,并带有可证明的近似保证。对四个公共数据集的实证研究表明,ALG 可以显着提高 GCN 主动学习的性能和效率。
1 INTRODUCTION
最近,图卷积网络 (GCN) [16] 及其变体在节点分类 [16, 28, 39, 48] 和链接预测 [13, 17, 42, 43] 等许多应用中取得了巨大成功
为了达到令人满意的性能,GCN 需要足够数量的标记数据 [48]
然而,在现实世界的场景中,数据标记通常涉及不可忽略的人工,从而导致高标记成本 [10]。
具体来说,标记成本与标记实例的数量成正比
例如,在亚马逊的 Mechanical Turk (MTurk) [20, 35] 中,每个标记实例的人群成本至少为 0.05 美元,更不用说昂贵的专家了
因此,手动标记所有实例进行训练是不适用的。鉴于标签预算有限,从基础数据中选择性能最佳的实例来标签 [5] 是很有趣的
但是这样的选择是困难的,因为不同的标记训练实例集会导致不同的性能。
为了应对这一挑战,主动学习 (AL) [25, 34, 40] 提供了通过集成数据标记和模型训练来选择有价值示例的解决方案
具体来说,AL 通过在小标记数据池上重复训练模型并根据不同的查询启发式方法(例如不确定性 [44、50] 和信息密度)选择要标记的示例,以交互方式从大量未标记数据中选择示例进行标记[1、14、22]
然而,传统的 AL 策略是为独立同分布 (i.i.d) 数据 [7, 9] 上的学习模型而设计的,而图结构数据不是 i.i.d,因为图中的连接节点更有可能共享相同的标签
因此,将这些 AL 策略 [4, 50] 应用于 GCN 无法捕捉 GCN 的图结构和特征,从而导致性能欠佳 [5, 11, 24]
此外,GCN 涉及一个昂贵的递归邻域扩展,它计算每个节点的嵌入 [21, 33]
对于大图,现有的 AL 框架存在效率和可扩展性问题 [49],这需要大量的计算资源来训练 GCN
在本文中,我们提出了 ALG,一种新颖的 GCN 主动学习框架
ALG 的新颖之处在于通过利用 GCN 的几个特征从根本上提高主动学习的性能和效率
我们观察到 GCN 中的图卷积操作可以解耦为无模型的特征聚合操作和依赖模型的神经更新操作,这促使我们将这两个操作分开以提高效率
此外,只有 ?标记节点的 -hop 邻域可能有助于训练 ?层 GCN [19]。这个 ? -hop 邻域被称为节点的接收场 (RF) [32]
GCN 的这一特性促使我们引入与半监督图学习的特性相一致的新 AL 选择原则
据我们所知,ALG 是第一个结合主动学习和 GCN 解决性能和效率问题的框架。本文的贡献总结如下:
- C1。有效接收场 (ERF)。我们是第一个在 GCN 的 AL 中提出 ERF 概念的人。基于 ERF,我们进一步为 GCN 提出了一种全新的 AL 选择标准:我们最大化所选节点的“影响”,以使更多未标记的节点参与训练,而目前仅考虑单个实例的信息性或代表性。传统的 AL 社区。我们证明了所提出的问题是 NPhard,并提供了一种简单而有效的贪心算法,具有可证明的近似保证。
- C2。无模型且经济高效的测量。通过解耦 GCN,我们率先提出了基于图的 AL 的无模型代表性,并利用多层感知器 (MLP) 以具有成本效益的方式近似计算信息量。此外,由于信息量对模型很敏感,而代表性则不然,我们引入了一种自适应组合机制来提高性能和效率。
- C3。最先进的性能。对四个节点分类基准数据集的实证评估表明,ALG 在预测准确度方面优于最先进的方法 AGE 和 ANRMAB 0.72.3% 和 0.8%-2.9%,同时达到 44 倍和 692 倍的端到端运行时加速。
2 PRELIMINARY
略…
7 CONCLUSION
在本文中,我们提出了一种新颖的 GCN 主动学习框架
与传统的主动学习(AL)不同,我们在 AL 中观察到 GCN 的两个特点:
- 首先,GCN 的操作可以解耦为无模型特征聚合和基于模型的特征更新
- 其次,标记节点的接收域内的未标记节点也有助于训练过程
ALG 的关键见解是通过利用 GCN 的上述特征从根本上提高 AL 的性能
通过优化 GCN 的查询度量和度量设计,ALG 不仅可以选择最大化最终性能的标记节点,而且可以实现节点选择的高速化
据我们所知,ALG 是第一个解决 GCN 设置中性能和效率问题的 AL 框架
我们对几个真实世界图形数据集的广泛实验表明,ALG 在效率和模型性能方面的显着提高优于现有技术。
读后总结
2022/09/20 第一次阅读
方向不同,不太懂
还是有点收获:GCN需要一定量的标记数据,但实际生活中标记数据获取成本很高,这里利用主动学习从小数据(有标记)学习,对其余无标记的数据进行标记(不晓得这样理解对不对)
提高GCN中性能和效率
结语
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正
以上是关于每日一读ALG: Fast and Accurate Active Learning Framework for Graph Convolutional Networks的主要内容,如果未能解决你的问题,请参考以下文章
每日一读Joint Unsupervised Learning of Deep Representations and Image Clusters
每日一读Joint Unsupervised Learning of Deep Representations and Image Clusters
每日一读SWOPE:Efficient Approximate Algorithms for Empirical Entropy and Mutual Information