简单好用!推荐中的自监督图神经网络

Posted 图与推荐

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单好用!推荐中的自监督图神经网络相关的知识,希望对你有一定的参考价值。

数据的偏态分布、噪声等问题在机器学习中广泛存在,极大的限制了模型的性能。自监督学习可能是缓解上述问题的有效途径!微软亚洲研究院、中国科学技术大学新加坡国立大学的一众大佬联合提出了SGL模型,通过辅助的自监督任务来提高监督任务(推荐)的性能。通过简单的自监督任务就可以极大的提升现有GNN推荐模型的效果。




Part 1

摘要


推荐系统上的user-item图的表示学习从单个ID发展到了通过高阶邻居来学习(例如经典的NGCF)。虽然这样的模型很高效,但是却有两个限制:


(1)度数高的节点对表示学习的影响更大,从而减弱了度数低的节点对表示学习的影响。

(2)因为聚合邻居机制会扩大边的影响,所以模型对噪声敏感


这项工作是为了增强原来推荐系统GCN的精确性和鲁棒性的,中心思想是通过辅助的自监督任务来提高经典监督任务的性能。我们的模型叫做自监督图学习(SGL),这个模型超过了之前先进的模型lightGCN,提高了精确度和鲁棒性。


Part 2

简介


在user-item互动数据上进行表示学习,早期的模型比如MF将每个用户或项的ID映射到embedding向量上。后续的研究将单个ID同互动历史结合起来进行更好的表示。而现如今,表示学习已经发展为从高阶连接中进行学习。这项技术是从GCN中得到灵感的。但是基于GCN的表示模型受到了一些限制:


(1)稀疏的监督信号 相比整个互动空间而言,观察到的互动及其稀疏。这对于训练模型是不充足的。


(2)偏态分布的数据 观察到的互动通常遵循幂律分布,而度数小的节点则缺少监督信号,度数高的节点出现次数更多。所以模型受度数高的节点影响更大。


(3)噪声的影响 大多数用户提供的反馈是隐式而非显式的,所以观察到的互动通常含有噪声。而GCN的邻居聚集机制会扩大这种影响。


这里提出了SSL模型来解决上述问题。有两个关键的组成部分:


(1)数据增强 为每个节点生成多种视角

(2)对比学习 相对其他节点而言,最大化相同节点的不同视角的认同。


SGL模型可以用用于任何含有用户embedding和项目embedding的模型。我们将它应用于lightGCN上,在精确度和鲁棒性上获得了提升。


Part 3

模型

简单好用!推荐中的自监督图神经网络

图1

SGL的总体框架。(1)第一层阐述了主要监督学习任务的工作流。(2)第二层和第三层展示了有增强ID embedding和图结构的SSL模型的工作流


在聚集邻居信息之前,要先进行ID embedding和图结构的增强。即


   


   


建立了节点的增强视角之后,我们将相同节点的视角看做正例对,不同节点的视角看做负例对,有


   


我们还提出了多任务训练策略来优化经典的推荐任务


   


Part 4

实验


我们在三个基准数据集上进行了实验,对不同的模型进行了对比,得到了如下结果


表3


可以看到,在大多数情况下,SGL表现优于lightGCN;其中SGL-ED的表现是最好的,我们将其归因为SGL-ED可以捕获图结构的继承模式;SGL-ND的稳定性比SGL-ED差很多,这是因为对边进行了dropout;将模型从1层变为3层可以增强SGL模型的性能。


除此之外,SGL在long-tail推荐中表现很好,且训练效率和鲁棒性测试上均表现优异。



Part 5

总结


这项工作中,我们介绍了之前GCN模型的限制,并且提出了SSL来解决这些问题。我们提出了SGL来增强推荐任务的性能。通过embedding矩阵和基于GCN模型的图结构,我们设计了四种数据增强来进行辅助对比任务。最后我们做了实验,证明了模型的优越性。



以上是关于简单好用!推荐中的自监督图神经网络的主要内容,如果未能解决你的问题,请参考以下文章

自监督图神经网络

GNN通俗笔记:图神经网络在推荐/广告中的应用

推荐系统中的图网络模型

学习笔记 | 2023 ICLR ParetoGNN 多任务自监督图神经网络实现更强的任务泛化

高中生发图神经网络论文,看到他的履历我沉默了

让你效率提升10倍的极其好用的办公工具