时间知识图谱补全的历时嵌入

Posted 2023-05-04 chaosliang的园子

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了时间知识图谱补全的历时嵌入相关的知识，希望对你有一定的参考价值。

原文

Diachronic Embedding for Temporal Knowledge Graph Completion

出版

The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20)

申明

版权归原文作者及出版单位所有，如有侵权请联系删除

摘要

知识图谱（Knowledge graphs，简称KGs）通常包含表示实体在不同时间之间关系的时间性质。由于它们的不完整性，已经提出了多种方法来基于现有的事实推断KG中的新事实，这个问题被称为KG补全。KG嵌入方法已经证明对于KG补全是有效的，然而，它们主要是针对静态KG进行开发的。开发时序KG嵌入模型是一个越来越重要的问题。在本文中，我们通过为静态模型添加历时实体嵌入函数来构建时序KG补全的新模型，该函数可以提供实体在任何时间点的特征。这与现有的时序KG嵌入方法相反，后者只提供静态实体特征。所提出的嵌入函数是模型无关的，并且可以与任何静态模型潜在地结合使用。我们证明将其与SimplE（一种用于静态KG嵌入的最新模型）结合，可以得到一个完全表达能力的时序KG补全模型。我们的实验证明了我们的提议相对于现有基线模型的优越性。

介绍

在这篇论文中，我们基于一种直观的假设来开发时序知识图谱补全（Temporal KG Completion，TKGC）的模型：为了给出例如（Mary，喜欢，教父，1995）这样的关系一个分数，我们需要了解Mary和教父在1995年的特征；基于它们当前的特征来提供分数可能会引导错误。这是因为Mary的个性和对教父的情感在1995年与现在相比可能大不相同。因此，学习每个实体的静态表示——正如现有方法所做的那样——可能是次优的，因为这种表示只捕捉了实体在当前时间的特征，或者是在时间上的实体特征的聚合。

为了在任何给定的时间提供实体特征，我们定义了实体嵌入作为一个函数，它接受实体和时间戳作为输入，并为该时间点上的实体提供隐藏表示。受到历时词嵌入的启发，我们将我们提出的嵌入称为历时嵌入（Diachronic Embedding，DE）。DE是模型无关的：通过利用DE，任何静态KG嵌入模型都有潜力扩展为TKGC模型。我们证明将DE与SimplE（Kazemi和Poole，2018b）相结合可以得到一个完全表达能力的TKGC模型。

据我们所知，这是第一个具有完全表达能力证明的TKGC模型。我们在ICEWS（Boschee等人，2015）和GDELT（Leetaru和Schrodt，2013）数据集的子集上展示了我们模型的优点。

历时嵌入

实体的历时嵌入

其中 a(v)、w(v)、b(v) 是具有可学习参数的（实体特定的）向量，σ 是一个激活函数。直观地说，实体可能具有随时间变化的一些特征和保持不变的一些特征。方程（1）中向量的前γd个元素捕捉时间特征，而其他（1 − γ）d个元素捕捉静态特征。

0 ≤ γ ≤ 1 是一个超参数，控制时间特征的百分比。虽然在方程（1）中，如果优化器将w(v)的某些元素设为零，静态特征可以从时间特征中获得，但显式地建模静态特征有助于减少可学习参数的数量，并避免对时间信号的过拟合（参见消融研究）。

直观地说，通过学习 w(v) 和 b(v)，模型学习如何在不同时间点上打开和关闭实体特征，从而可以在任何时间对它们进行准确的时间预测。a(v) 控制特征的重要性。我们主要在方程（1）中使用正弦函数作为激活函数，因为一个正弦函数可以模拟多个打开和关闭状态。我们的实验证明还探索了其他激活函数，并提供了更多的直观理解。

实验

关系的历时嵌入:

与实体相比，我们假设关系可能以非常低的速率进化，或者对于某些关系，进化可以忽略不计。

因此，用静态(而不是历时的)表示来建模关系可能就足够了。为了测试这个假设，我们在ICEWS14上运行了DE-trans和DE-DistMult，其中关系嵌入也是时间的函数。从表3中获得的结果可以看出，具有实体和关系的历时嵌入的模型与仅具有实体的历时嵌入的模型表现相当。我们在ICEWS0515(时间跨度更长)和GDELT上进行了相同的实验，观察到了类似的结果。这些结果表明，至少在我们的基准上，对关系的演变建模可能没有帮助。未来的工作可以在具有其他类型关系和更长时间跨度的数据集上测试这一假设。

面向知识图谱的图嵌入学习进展

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：专知

知识图谱是一种用网络结构存储知识的知识库，在知识图谱中，单条知识被表示成三元组的形式，即（头实体，关系，尾实体）.得力于知识图谱在各个领域的广泛应用，面向知识图谱的图嵌入学习也得到越来越多研究人员的关注.面向知识图谱的图嵌入学习任务旨在为图谱中的实体与关系学习低维且稠密的向量，通过图嵌入向量表达实体与关系的语义信息以及度量实体之间、关系之间、实体与关系之间的语义联系，已有许多研究证明图嵌入模型在下游任务中的有效性.近年来，越来越多研究人员开始关注知识图谱的图嵌入学习，并取得大量的研究成果，本文尝试将图嵌入算法分成了基于转移思想、基于张量分解、基于传统深度学习模型、基于图神经网络以及融入额外信息的图嵌入学习共五大类，梳理、介绍各类图嵌入算法的设计思路、算法特征以及优缺点，以帮助指导初步接触该领域的研究人员快速学习了解该研究领域的相关模型和算法.

http://jos.org.cn/jos/article/abstract/6426

近年来,随着互联网、物联网等技术的不断发展,以及其他研究领域的需求发展,各类应用应运而生,也相应地产生了海量的数据资源.其中,图数据作为一种能够广泛建模诸多场景的数据类型,吸引了大量且深入的相关研究,如社交网络、蛋白质网络、知识图谱等领域.其中,知识图谱作为一种异质图网络,将知识表示成三元组的形式(头实体,关系,尾实体),知识中的实体(即头实体与尾实体)表示成图的节点,知识中的关系表示成图的连边, 利用网络化结构更加直观地表征与存储知识. 面向知识图谱的学习任务主要包含知识图谱的构建与维护,以及基于知识图谱的下游任务,如基于知识图谱的问答系统[1]、基于知识图谱的信息抽取[1]任务等.其中,无论是属于面向知识图谱的知识补全、实体对齐、关系抽取任务还是其他基于知识图谱的下游任务,都能够基于知识图谱的图嵌入表示解决问题.因此,伴随着知识图谱研究热度的上升,面向知识图谱的表示学习也得到越来越多的关注. 面向知识图谱的表示学习,又称为知识图谱的图嵌入学习,旨在将知识图谱的实体与关系映射到低维且稠密的向量或矩阵,相比于 one-hot 向量,图嵌入对存储要求更低,且更加能够反映实体、关系的语义信息,以及实体之间、关系之间、实体与关系之间的语义联系.除此以外,相较于传统的图学习算法,如基于规则学习的知识推理算法[3][4]、基于本体推理的知识推理算法[5][6] ,图嵌入学习具有较低的计算复杂性,并且得利于并行运算能力与框架的发展,图嵌入学习的计算效率得以不断提升.

相比于其他领域的图嵌入学习,例如面向无向图的图嵌入学习,面向社交网络、蛋白质结构等异质图的图嵌入学习任务,知识图谱因为自身的数据特点使得在图嵌入学习方面与其它类型的异质图有所差异.首先,常见的异质图包含的关系类别很少,如 DBLP 网络只包含论文-作者、论文-会议和论文-题目用词三种关系类别,IMDB 网络只包含电影-演员、电影-导演两种关系,极少的关系类别使得这类异质图学习更长、更丰富的上下文模式更加方便.基于元路径(meta-path)和元图(meta-graph)的图嵌入学习方法是两种异质图表示学习的常见路线[7] ,元路径和元图可以视为需要专家人工制定的子图模式.而极少的关系类别也使得人工构建元路径和元图在效率上成为可能,这也使得异质图基于元路径和元图的图嵌入学习方法能够得到有效发展.而知识图谱往往具有很多关系类别,例如 FB15k-237 数据集[8]包含 237 种关系,想要人工设计元路径和元图模式则不可避免地需要面临组合爆炸的问题;其次,对于常见的异质图,因为结构简单、实体类别较少,每个节点往往能够分配一个特定的类别,这种节点类别信息在异质图的图嵌入学习过程中能够起到不可忽略的作用,例如 HAN 模型[9]在聚合信息前会首先将邻居信息通过类别相关的线性变换映射到节点类别空间中.而知识图谱实体标签过于复杂,没有显示为每个实体分配特定的类别,同时因为结构过于复杂,知识图谱的实体类别往往具有层次性,可能实体与实体的类别本身都存在图谱内,所以想要现实表达实体的类别信息并不容易.所以,实体类别信息往往作为一种隐式知识被利用在图嵌入学习任务中;除此以外,相比于常见的异质图,知识图谱的节点(即实体)往往具有较为丰富的文本信息,如实体名称、实体描述,这些文本信息能够配合知识图谱本身的图结构信息一起更好地学习实体的语义信息.综上所述,知识图谱虽然作为一种异质图,但因为自身的一系列特点,使得面向知识图谱的图嵌入学习在学习思路、可利用的信息等方面与其它类型的异质图有较大差异,丰富的文本信息和复杂多变的网络结构使得面向知识图谱的图嵌入学习增加了更多的挑战和研究空间. 为此,本文梳理了面向知识图谱的图嵌入学习算法的不同设计思想,并对相应方法进行了总结.具体来说, 本文首先给出图嵌入学习的任务描述以及相关符号定义,然后按照设计思路、信息利用程度的不同将图嵌入学习方法分成如下五种类别:基于转移思想的图嵌入算法、基于矩阵/张量分解的图嵌入算法、基于传统深度学习的图嵌入算法、基于图神经网络的图嵌入算法以及融入额外信息的图嵌入算法;最后,本文总结了以上不同类别图嵌入的特征与优缺点,以及部分有待深入研究的问题.

相较于现有的研究进展报告[10][11] ,本文主要通过分析之前模型的不足来梳理和介绍当前的研究进展,这样有利于从问题出发有的放矢地介绍不同领域方法的发展脉络和不同研究成果的出发点和优缺点,方便读者的理解;而且相较于[10][11]的工作,本文将基于 GNN 的图嵌入模型从基于深度学习模型的图嵌入算法中抽取出来单独列为一类,一方面是为了结合了近阶段图神经网络模型的快速发展趋势,另一方面是考虑到基于 GNN 的图嵌入模型从编码思想上与其他几类方法有较大的差异,其主要利用 GNN 模型较为强大的图结构编码能力, 因此有必要单独列为一类,所以本文在基于 GNN 模型的图嵌入方法上介绍也会较多;除此以外,本文还额外介绍了使用额外信息的一系列图嵌入算法,如基于文本信息、路径信息等,为面向知识图谱的图嵌入算法的后续研究介绍更多可思考和研究的方向;最后,本文列举了面向知识图谱的图嵌入学习的部分难点和有待解决的问题。