论文精读A Survey on Knowledge Graphs Representation, Acquisition and Applications
Posted HERODING23
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文精读A Survey on Knowledge Graphs Representation, Acquisition and Applications相关的知识,希望对你有一定的参考价值。
A Survey on Knowledge Graphs Representation, Acquisition and Applications
- 前言
- Abstract
- 1. INTRODUCTION
- II. OVERVIEW
- III. KNOWLEDGE REPRESENTATION LEARNING
- IV. KNOWLEDGE ACQUISITION
- V. TEMPORAL KNOWLEDGE GRAPH
- VI. KNOWLEDGE-AWARE APPLICATIONS
- VII. FUTURE DIRECTIONS
- VIII. CONCLUSION
- References
- 阅读总结
前言
一篇关于知识图谱的综述,虽然文章的结构略显混乱,很多概念略微抽象,许多工作的内容需要自己脑补外,关于知识图谱的结构,发展,未来走向的讲述还是很清晰的,我认为这篇文章不值得一板一眼得看,大致浏览一遍就好,每节的内容看summary部分就可以了,不然会大把时间浪费在一些抽象的概念上,得不偿失,那么我们开始吧!
Abstract
当前,表示实体之间结构关系的知识图谱已成为认知和人类智能领域日益流行的研究方向。本文涵盖的主题包括:
- 知识图谱表示学习
- 知识获取和补全
- 时序知识图谱
- 知识图谱应用
文章总结了知识图谱领域最近的突破和前景方向。知识图谱图嵌入(Embedding) 由四个部分组成:表征空间、得分函数、编码模型和辅助信息。知识获取回顾了知识图谱补全、Embedding方法路径推理和逻辑规则推理,此外文章进一步探索了包括元关系学习、常识推理和时序知识图谱在内的新兴主题,最后文章提供了针对不同任务的精选数据集和开源库。
1. INTRODUCTION
知识图谱: 是对事实的结构化表示,由实体、关系和语义描述组成。
实体可以是是真实世界的对象和抽象概念,关系表示实体之间的联系以及实体的语义描述,实体间关系包含具有明确定义含义的类型和属性。
属性图(Property graphs or attributed graphs) 被广泛使用,其中的节点和关系都有各自的特性和属性。
知识图谱和知识库(knowledge base) 几乎同义,前者更为突出图的结构,当涉及到形式语义时,知识图谱可以作为对事实进行解释和推理的知识库。二者的区别如下图所示:
基于资源描述框架(RDF),知识可以被描述为三元组形式,通常可以表示为 (h, r, t),其中 h , r , t 分别代表头实体、关系和尾实体;对于概念与概念或概念与实体,则可以描述为 (s, p, o),其中 s , p , o分别代表主语、谓语和宾语。
基于知识图谱的最新进展侧重于知识表示学习(KRL)或知识图谱嵌入(KGE),通过把实体和关系映射到低维向量中捕获它们的语义信息来实现。
具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别(NER)和关系抽取。另外,知识感知模型受益于异构信息的集成、丰富的知识表示本体和语义以及多语言知识。
为什么要构建知识图谱?
文章中并没有直接提到这一点,但是引言部分还是有所涉及的,首先最直接的一点,就是知识图谱将事实结构化可以促进机器的认知;第二它引入了大规模、语义丰富、结构友好和高质量的背景知识,这一点不论是对机器还是对人类,都可以提高对相关实体或者概念的认知;第三知识图谱带来更强的解释性,更像人类一样利用概念、属性、关系去解释现象和事实;最后一点也是很重要的一点,知识图谱的落地可以提高搜索引擎、问答系统、推荐系统的性能和质量,在工业界需求量大。
文章的贡献:
- 对知识图谱领域进行了全面的调查。
- 提出对知识图谱的全面分类,以及细粒度的分类方法。
- 涵盖了当前领域的最新进展和新兴主题。
- 对未来的展望与总结,突出了有前途的研究方向。
II. OVERVIEW
A. A Brief History of Knowledge Bases
知识表示在AI和逻辑领域历史悠久。下图是知识库的发展史:
通用知识库和领域特定知识库罗列在附录F-A1和附录F-A2中。
B. Definitions and Notations
根据前人的工作,本文将知识图谱定义为: G = ε , R , F \\mathcalG =\\\\varepsilon,\\mathcalR, \\mathcalF \\ G=ε,R,F,其中 ε , R , F \\varepsilon,\\mathcalR, \\mathcalF ε,R,F分别代表实体、关系、事实的集合。事实被描述成一个三元组 ( h , r , t ) ∈ F (h,r,t) \\in \\mathcalF (h,r,t)∈F。经典的两个定义如下:
定义1: 知识图谱获取信息并将其整合本体库中,同时应用推理机制来推导新知识。
定义2: 知识图谱是由实体和关系组成的多关系图, 实体和关系分别被视为节点和不同类型的边。
两个定义都没有错,只不过是从不同角度去描述知识图谱。定义一侧重知识图谱获取和迭代更新的方式,后者侧重于从知识图谱结构化角度描述实体和关系之间的联系。二者结合起来可能会更全面。
本文符号和说明如下表所示:
C. Categorization of Research on Knowledge Graph
当前有关知识图谱的研究技术包括知识表示学习,知识获取,时序知识图谱和知识图谱应用,如下所示:
知识表示学习: KRL可以分为表征空间,得分函数,编码模型,辅助信息四个方面,为知识获取和下游应用铺平了道路。每个方面具体包括:
- 表征空间涉及实体和关系如何表示,包括point-wise空间、流形、复数的向量空间、高斯分布以及离散空间;
- 得分函数衡量事实三元组的合理性,一般基于距离、相似度匹配的算法;
- 编码模型用于学习表征和关系交互,涉及线性模型、因式分解、神经网络;
- 辅助信息以Embedding形式融入到KG中,主要包括文本、类型、视觉信息。
知识获取: 任务分为三类,知识补全、关系抽取和实体发现。KGC用于扩展现有的知识图谱,NER和RE用于从文本中挖掘新的知识。KGC任务包括基于embedding的排序、关系路径推理、基于规则的推理以及元关系学习。实体发现包括识别、消歧、类型和对齐,关系抽取利用attention机制、GCNs、对抗学习、强化学习、残差学习以及迁移学习来抽取关系。
时序知识图谱: 融合了时间信息进行表征学习。可以分为四个领域,包括时序Embedding,动态实体,时序关系依赖和时间逻辑推理。
知识感知应用:即知识图谱的下游应用,包括自然语言理解(NLU),问答,推荐系统,以及其它真实世界的任务,这些任务通过注入知识去提高表征学习的能力。
D. Related Surveys
以往关于知识图谱的调查主要集中在统计关系学习、知识图谱细化、中文知识图谱构建、知识推理、KGE或KRL。本文对KRL的调查更加深入和全面,此外本文全面回顾了知识获取和感知应用,并讨论了几个新兴主题。
III. KNOWLEDGE REPRESENTATION LEARNING
KRL在其他文献中又名KGE,多关系学习和统计关系学习。本节从四个部分回顾了具有丰富实体和关系语义信息的分布式表征学习的最新进展。
A. Representation Space
表征学习的关键问题是学习实体和关系间的低纬分布式嵌入。当前领域主要使用实值点空间(包括向量、矩阵和张量空间),复杂向量空间,高斯空间和流形空间(manifold space)。
- 点空间(Point-Wise Space): 逐点欧几里得空间广泛应用于表征实体和关系,将Embedding投影到向量或矩阵空间,或者捕获关系交互。TransE代表了实体和关系在d维向量空间的表示,即 h , t , r ∈ R d \\mathbfh,t,r \\in \\mathbbR^d h,t,r∈Rd,并确保Embeddings服从平移原则 h + r ≈ t \\mathbfh+r \\approx t h+r≈t。为了解决实体和关系的单一空间不足的问题,TransR进一步为实体和关系引入了各自单独的空间,将 h , t ∈ R k \\mathbfh,t \\in \\mathbbR^k h,t∈Rk通过投影矩阵 M r ∈ R k × d \\mathbfM_r \\in \\mathbbR^k×d Mr∈Rk×d投影到关系空间 r ∈ R d \\mathbfr \\in \\mathbbR^d r∈Rd,NTN通过双线性张量神经网路层对多个维度的实体进行建模。此外,HAKE在不使用笛卡尔坐标系的情况下,通过将实体映射到极坐标系来捕获语义层信息。
- 复杂向量空间(Complex Vector Space): 实体和向量表示在复杂的空间而不是实数空间,其中 h , t , r ∈ C d \\mathbfh,t,r \\in \\mathbbC^d h,t,r∈Cd。以头实体为例, h = R e ( h ) + i I m ˚ ( h ) \\mathbfh=\\rmRe(\\mathbfh)+i\\rIm(\\mathbfh) h=Re(h)+iIm˚(h),由实部和虚部组成。ComplEx首次引入复杂向量空间,它可以捕获对称和反对称关系。Hermitian 点积用于对关系、头实体和尾实体的共轭进行组合。受到欧拉公式 e i θ = c o s θ + i s i n θ e^i\\theta=\\rm cos\\theta+i\\rm sin\\theta eiθ=cosθ+isinθ的启发,RotatE提出了一个旋转模型,它将关系视为复杂空间中头实体到尾实体的旋转, t = h ∘ r \\mathbft=h\\circ r t=h∘r,其中 ∘ \\circ ∘代表元素维度的Hadmard乘积。QuatE进一步将复数空间扩展到了超负数空间 h , t , r ∈ H d \\mathbfh,t,r \\in \\mathbbH^d h,t,r∈Hd,表示为具有三个虚部的方程 Q = a + b i + c j + d k Q=a+b\\mathbfi+c\\mathbfj+d\\mathbfk Q=a+bi+cj+dk,四元组的内积,即 h ⊗ r \\mathbfh\\otimes r h⊗r,用作头实体和关系的算子。RotatE是可以捕获反转和组合模式以及对称性和反对称性。QuatE可以捕获实体和关系的四维空间内的潜在相互依赖关系,并获得比RotatE更具表现力的旋转能力。
- 高斯分布(Gaussian Distribution): 受到高斯词嵌入的启发,基于密度的嵌入模型KG2E引入高斯分布来处理实体和关系的确定和不确定性。它将实体和关系嵌入到多维高斯分布 H ∼ N ( μ h , Σ h ) \\mathcalH \\sim \\mathcalN(\\mu_h,\\Sigma_h) H∼N(μh,Σh)和 T ∼ N ( μ t , Σ t ) \\mathcalT \\sim \\mathcalN(\\mu_t,\\Sigma_t) T∼N(μt,Σt)中。均值向量 u \\mathbfu u表示实体和关系的位置,协方差矩阵 Σ \\mathbf\\Sigma Σ模拟它们的确定性和不确定性。遵循平移原则,实体变换的概率分布 H − T \\mathcalH -\\mathcalT H−T表示为 P e ∼ N ( μ h − μ t , Σ h − Σ t ) \\mathcalP_e \\sim \\mathcalN(\\mu_h-\\mu_t,\\Sigma_h-\\Sigma_t) Pe∼N(μh−μt,Σh−Σt)。类似的TransG用高斯分布表示实体,用混合高斯分布表示关系Embedding,其中关系 r \\mathbfr r的第m个平移向量部分表示为 u r , m = t − h ∼ N ( u t − u h , ( σ h 2 + σ t 2 ) E ) \\mathbfu_r,m= \\mathbft-\\mathbfh \\sim \\mathcalN(\\mathbfu_t-u_h,(\\sigma^2_h+\\sigma^2_t)\\mathbfE) ur,m=t−h∼N(ut−uh,(σh2+σt2)E)。
- 流形空间(manifold space): 流形空间是拓扑空间, 集合论中定义为一组具有邻域的点。先前逐点建模是一个不适定的代数系统,其中得分方程的数量远远大于实体和关系的数量。此外,尽管应用了某些子空间投影的方法,Embedding也被限制在过于严格的几何形式中。为了解决上述问题,ManifoldE将逐点Embedding延伸为基于流形的Embedding,有两种基于流形Embedding的设置,即球体和超平面。对于球体的设置,再生希尔伯特核空间(Reproducing Kernel Hilbert Space)用于表示流形函数。超平面设置可以增强具有交互Embedding的模型。当流形函数和关系特定的流形参数设置为零时,流形坍缩为一个点。双曲空间是一个具有恒定负曲率的多维黎曼流形空间,因其捕获层次信息的能力而备受关注。TorusE通过嵌入一个紧李群n维环面空间解决了TransE的正则化问题。和TransE类似,它也在环面空间根据关系平移学习Embedding信息。即 [ h ] + [ r ] ≈ [ t ] \\mathbf[h]+[r] \\approx [t] [h]+[r]≈[t]。最近,DihEdral提出一个保留二维多边形的二面角对称群。它利用有限非阿贝尔群来有效地保持对阵或斜对称、翻转和合成的关系性质与二面角群中的旋转和反射性质。
可以看到这几个空间的内容基本上就是原文中内容的翻译结果,因为这几个空间涉及到太多的专业数学知识,单纯的进行翻译也无法很好地理解其中的含义,需要结合具体的例子来理解,所以这里我不敢贸然提炼其中的关键,也不敢贸然总结,毕竟对于我来说,相关知识的储备是不完善的,还请读者见谅。
B. Scoring Function
得分函数用于衡量事实的合理性,在基于能量的学习框架中也称为能量函数。基于能量的学习旨在学习能量函数
ε
θ
(
x
)
\\varepsilon_\\theta(x)
εθ(x),其中
θ
\\theta
θ为参数,
x
x
x为输入,确保正样本比负样本具有更高的分数。典型的得分函数分为基于距离和基于相似性的函数。前者通过计算实体之间的距离来衡量事实的合理性,关系的加性转换
h
+
r
≈
t
\\mathbfh+r \\approx t
h+r≈t被广泛使用。后者如基于语义相似性的得分通过语义匹配衡量事实的合理性。它通常采用乘法公式在表示空间中变化靠近尾实体的头实体,即
h
⊤
M
r
≈
t
⊤
\\mathbfh^\\topM_r \\approx \\mathbft^\\top
h⊤Mr≈t⊤。
-
基于距离的得分函数: 一种直观的方法是计算实体之间关系投影的欧氏距离。结构化Embedding(SE)使用两个投影矩阵和 L 1 L_1 L1距离来学习SE,即:
f r ( h , t ) = ∣ ∣ M r , 1 h − M r , 2 t以上是关于论文精读A Survey on Knowledge Graphs Representation, Acquisition and Applications的主要内容,如果未能解决你的问题,请参考以下文章
论文精读COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
论文笔记-Deep Learning on Graphs: A Survey(上)
论文阅读 | A Survey on Multi-Task Learning
数据聚类|深度聚类A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges综述论文研读
数据聚类|深度聚类A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges综述论文研读