知识图谱中有哪些核心概念?
Posted Shockang
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识图谱中有哪些核心概念?相关的知识,希望对你有一定的参考价值。
前言
本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见大数据技术体系
知识图谱
“知识图谱”一词在提出之初特指 Google 公司为了支撑其语义搜索而建立的知识库。
随着知识图谱技术应用的深化,知识图谱已经成为大数据时代最重要的知识表示形式。
关于知识图谱请参考我的博客——知识图谱是什么?
作为一种知识表示形式,知识图谱是一种大规模语义网络,包含实体(Entity)、概念(Concept)及其之间的各种语义关系。
语义网络
理解知识图谱的概念,要掌握两个要点:第一,其是语义网络,这是知识图谱的本质;第二,其是大规模的,这是知识图谱与传统语义网络的根本区别。
语义网络是一种以图形化的(Graphic)形式通过点和边表达知识的方式,其基本组成元素是点和边。
点
语义网络中的点可以是实体、概念和值(Value)。
实体
实体有时也会被称作对象(Object)或实例(Instance)。
何为实体,这是哲学家们长期追寻与探索的问题,时至今日尚未形成共识。
黑格尔在《小逻辑》一书里曾经给实体下过一个定义:“能够独立存在的,作为一切属性的基础和万物本源的东西。”
也就是说,实体是属性赖以存在的基础,并且必须是自在的,即独立的、不依附于其他东西而存在的。
比如身高,仅仅说身高是没有意义的,说“哲学家”这个类别的身高也是没有意义的,而必须说某个具体的哲学家的身高,这才是有明确所指且有意义的。
理解何为实体,对于进一步理解属性、概念是十分必要的。
概念
概念又被称为类别(Type)、类(Category 或 Class)等。
比如“哲学家”,不是指某一个特定的哲学家,而是指一类人,这一类人有着相同的描述模板,构成一个类或者概念。
概念所对应的动词是“概念化”(Conceptualize)或者“范畴化”(Categorize)。
概念化一般指识别文本中的相关概念的过程。
比如,文本“柏拉图与苏格拉底的哲学思想”显然与“哲学家”这一概念相关。
范畴化在一些场景下指实体形成类别的过程。
比如, 一个新的哲学流派是由若干有着类似哲学思想的哲学家组成的,这一流派形成的过程就是一个典型的范畴化过程。
另外,范畴化有时也指将特定实体归到相应类别的过程。
比如,柏拉图可以归类到唯心主义哲学家这一类别。
需要指出的是,在不同的实际应用中,英文“Type”、“Class”及“Concept”的含义是略有差异的。
值
每个实体都有一定的属性值。
属性值可以是常见的数值类型、日期类型或者文本类型。
比如,希腊共和国的国土面积是“131957平方公里”,这是数值类型;柏拉图的出生年份是“公元前427年”,这是日期类型;柏拉图的英文译名是“Plato”,这是文本类型。
边
知识图谱中的边可以分为属性(Property)与关系(Relation)两类。
属性
属性描述实体某方面的特性,比如人的出生日期、身高、体重等。
属性是人们认知世界、描述世界的基础。
关系
关系则可以认为是一类特殊的属性,当实体的某个属性值也是一个实体时,这个属性实质上就是关系。
比如,某个人的父亲是一个特定的人物实体,因此“父亲”可以认为是一条关系。
在很多文献与实际应用中,往往将属性与关系混用,未严格地从属性中区分出关系。
关系对于知识图谱上的多步遍历以及沿着语义关系的长程推理十分重要。
而知识图谱上的推理操作一旦遇到一个属性,就意味着推理结束。
比如,要想知道柏拉图的导师的出生时间,需要先在知识图谱中从“柏拉图”沿着“导师”关系找到“苏格拉底”,再沿着“苏格拉底”的“出生时间”属性找到最终答案,最后整个推理过程即宣告结束。
语义网络中的边按照其两端节点的类型可以分为概念之间的子类(subclassOf)关系
、实体与概念之间的实例(instanceOf)关系
,以及实体之间的各种属性与关系
。
语义网络中的关联都是语义关联, 这些语义关联发生在实体之间、概念之间或者实体与概念之间。
实体与概念之间是实例(instanceOf)关系,比如,“柏拉图”是“哲学家”的一个实例。
概念之间是子类(subclassOf)关系,比如,“唯心主义哲学家”是“哲学家”的一个子类。
实体与实体之间的关系十分多样,比如,“苏格拉底”与“柏拉图”之间是师生关系,“柏拉图”的代表作品之一是“《理想国》”。
以上是关于知识图谱中有哪些核心概念?的主要内容,如果未能解决你的问题,请参考以下文章