通用知识图谱VS行业知识图谱
Posted taoorigin
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了通用知识图谱VS行业知识图谱相关的知识,希望对你有一定的参考价值。
??众所周知,知识图谱是Google于2012年提出,用来优化搜索结果。经过多年的发展,知识图谱在人工智能的许多行业都拥有了成熟落地的应用。按照知识图谱的覆盖面来看,主要分为通用知识图谱与行业知识图谱。
This is why a “web” of notes with links between them is far more useful than a fixed hierarchical system…Cicles and arrows leaves one free to describe the interrelationships between things in a way that tables, for example, do not. The system we need is like a diagram of circles and arrows, where circles and arrows can stand for anything.
???????????????????Information Management: A proposal 1989 , Tim Berners-Lee
This is a pity , as in fact documents on the web describe real objects and imaginary concepts, and give particular relationships between them but we could not process them at all…
???????????????????Tim Berners-Lee, Inventor of the Web, @WWW Geneva,1994
web of Texts, Web of documents -> Web of Objects, Web of Data, Web of Things
谷歌知识图谱: Things not strings
1. 通用知识图谱
??Google所提出的知识图谱即为通用知识图谱,他是面向全领域的。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等业务场景。由于它强调的是广度,因而更多的是强调实体,很难生成完整的全局性本体层的统一管理。通用知识图谱一些常见的项目如下
2.1 通用图谱案例
2.1.1 CYC
??Cyc是在1984年由Douglas Lenat开始创建。 最初的目标是要建立人类最大的常识知识库。典型的常识知识如“Every tree is a plant”等。
??Cyc知识库主要由术语Terms和断言Assertions组成。Terms包含概念、关系和实体的定义。Assertions用来建立Terms之间的关系,这既包括事实Fact描述,也包含规则Rule的描述。
??最新的Cyc知识库包含有50万条Terms和700万条Assertions。Cyc的主要特点是基于形式化的知识表示方法来刻画知识。形式化的优势是可以支持复杂的推理。但过于形式化也导致知识库的扩展和应用的灵活性不够。Cyc提供开放版本OpenCyc
2.1.2 WordNet
??WordNet是著名的词典知识库,主要用于词义消歧。WordNet由普林斯度大学认知科学实验室从1985年开始开发
??WordNet主要定义了名词、动词、形容词和副词之间的语义关系。例如名词之间的上下位关系,动词之间的蕴涵关系等。WordNet3.0已经包含超过15万个词和20万个语义关系
2.1.3 FreeBase
??[谷歌知识图谱的前身正是由众包方式构建的FreeBase,通过开源免费吸引用户贡献数据,增值的应用及技术服务收费
2.1.4 DBpedia
??DBpedia 是一个大规模的多语言百科知识图谱,可视为是维基百科的结构化版本。DBpedia 使用固定的模式对维基百科中的实体信息进行抽取,包括abstract、infobox、category 和 page link 等信息。图 2 示例了如何将维基百科中的实体“Busan”的 infobox 信息转换成 RDF 三元组。DBpedia 目前拥有 127 种语言的超过两千八百万个实体与数亿个 RDF 三元组,并且作为链接数据的核心,与许多其他数据集均存在实体映射关系。而根据抽样评测[96],DBpedia 中 RDF 三元组的正确率达 88%。DBpedia 支持数据集的完全下载。
??此外,DBPedia还与FreeBase, OpenCYC, Bio2RDF等多个数据集建立了数据链接
2.1.5 NELL
??NELL(Never Ending Language Learner, 这个名字与2030永不停歇的知识引擎有异曲同工之妙,理想是丰满的,现实是骨感的,不评价)是卡内基梅隆大学开发的知识库。NELL主要采用互联网挖掘的方法从Web自动抽取三元组知识。
??NELL的理念是:给定一个初始的本体(少量类和关系的定义)和少量本体,让机器能够通过自学习的方式不断的从Web学习和抽取新的知识。目前NELL已经抽取了400多万条高置信度的三元组知识
2.1.6 Yago
??Yago 是一个整合了维基百科与 WordNet[97]的大规模本体,它首先制定一些固定的规则对维基百科中每个实体的 infobox 进行抽取,然后利用维基百科的category进行实体类别推断(Type Inference)获得了大量的实体与概念之间的 IsA 关系(如:“Elvis Presley” IsA “American Rock Singers”),最后将维基百科的 category 与 WordNet 中的 Synset(一个 Synset 表示一个概念)进行映射,从而利用了 WordNet 严格定义的 Taxonomy 完成大规模本体的构建。随着时间的推移,Yago 的开发人员为该本体中的 RDF 三元组增加了时间与空间信息,从而完成了 Yago2[98]的构建,又利用相同的方法对不同语言维基百科的进行抽取,完成了 Yago3的构建。目前,Yago 拥有 10 种语言约 459 万个实体,2400 万个 Facts,Yago 中 Facts的正确率约为 95%。Yago 支持数据集的完全下载。
2.1.7 Wikidata
??Wikidata 是一个可以自由协作编辑的多语言百科知识库,它由维基媒体基金会发起,期望将维基百科、维基文库、维基导游等项目中结构化知识进行抽取、存储、关联。Wikidata 中的每个实体存在多个不同语言的标签,别名,描述,以及声明(statement),比如 Wikidata 会给出实体“London”的中文标签“伦敦”,中文描述“英国首都”以及图 3 给出了一个关于“London”的声明的具体例子。“London”的一个声明由一个 claim 与一个 reference 组成,claim 包括property:“Population”、value:“8173900”以及一些 qualifiers(备注说明)组成,而 reference 则表示一个 claim 的出处,可以为空值。目前 Wikidata 目前支持超过 350 种语言,拥有近 2500 万个实体及超过 7000 万的声明,并且目前 Freebase 正在往 Wikidata 上进行迁移以进一步支持 Google 的语义搜索。Wikidata 支持数据集的完全下载。
2.1.8 BabelNet
??BabelNet 是目前世界范围内最大的多语言百科同义词典,它本身可被视为一个由概念、实体、关系构成的语义网络(Semantic Network)。BabelNet 目前有超过 1400 万个词目,每个词目对应一个 synset。每个 synset 包含所有表达相同含义的不同语言的同义词。比如:“中国”、“中华人民共和国”、“China”以及“people’srepublic of China”均存在于一个 synset 中。BabelNet 由 WordNet 中的英文 synsets 与维基百科页面进行映射,再利用维基百科中的跨语言页面链接以及翻译系统,从而得到 BabelNet 的初始版本。目前 BabelNet 又整合了 Wikidata、GeoNames、OmegaWiki 等多种资源,共拥有 271 个语言版本。由于 BabelNet 中的错误来源主要在于维基百科与 WordNet 之间的映射,而映射目前的正确率大约在 91%。关于数据集的使用,BabelNet 目前支持 HTTP API 调用,而数据集的完全下载需要经过非商用的认证后才能完成。
2.1.9 ConceptNet
ConceptNet 是一个大规模的多语言常识知识库,其本质为一个以自然语言的方式描述人类常识的大型语义网络。ConceptNet 起源于一个众包项目 Open Mind Common Sense,自 1999 年开始通过文本抽取、众包、融合现有知识库中的常识知识以及设计一些游戏从而不断获取常识知识。ConceptNet 中共拥有 36 种固定的关系,如 IsA、UsedFor、CapableOf 等,图 4 给出了一个具体的例子,从中可以更加清晰地了解 ConceptNet 的结构。ConceptNet 目前拥有 304 个语言的版本,共有超过 390 万个概念,2800 万个声明(statements,即语义网络中边的数量),正确率约为 81%。另外,ConceptNet 目前支持数据集的完全下载。
2.1.10 Microsoft Concept Graph
??Microsoft Concept Graph 是一个大规模的英文 Taxonomy,其中主要包含的是概念间以及实例(等同于上文中的实体)概念间的 IsA 关系,其中并不区分 instanceOf 与 subclassOf 关系。Microsoft Concept Graph 的前身是 Probase,它过自动化地抽取自数十亿网页与搜索引擎查询记录,其中每一个 IsA 关系均附带一个概率值,即该知识库中的每个 IsA 关系不是绝对的,而是存在一个成立的概率值以支持各种应用,如短文本理解、基于 taxonomy 的关键词搜索和万维网表格理解等。目前,Microsoft Concept Graph 拥有约 530 万个概念,1250 万个实例以及 8500 万个 IsA 关系(正确率约为 92.8%)。关于数据集的使用,MicrosoftConcept Graph 目前支持 HTTP API 调用,而数据集的完全下载需要经过非商用的认证后才能完成。
2.1.11 Zhishi.me
??Zhishi.me 是第一份构建中文链接数据的工作,与 DBpedia 类似,Zhishi.me 首先指定固定的抽取规则对百度百科、互动百科和中文维基百科中的实体信息进行抽取,包括 abstract、infobox、category 等信息;然后对源自不同百科的实体进行对齐,从而完成数据集的链接。目前 Zhishi.me 中拥有约 1000 万个实体与一亿两千万个 RDF 三元组,所有数据可以通过在线 SPARQL Endpoint 查询得到。
2.1.12 Zhishi.schema
??Zhishi.schema 是一个大规模的中文模式(Schema)知识库,其本质是一个语义网络,其中包含三种概念间的关系,即equal、related与subClassOf关系。Zhishi.schema抽取自社交站点的分类目录(Category Taxonomy)及标签云(Tag Cloud),目前拥有约40万的中文概念与150万RDF三元组,正确率约为84%,并支持数据集的完全下载。
2.1.13 XLore
??XLore 是一个大型的中英文知识图谱,它旨在从各种不同的中英文在线百科中抽取 RDF 三元组,并建立中英文实体间的跨语言链接。目前,XLore 大约有 66 万个概念,5 万个属性,1000 万的实体,所有数据可以通过在线 SPARQL Endpoint 查询得到。
2.2 通用图谱特点
??通用图谱基本包含以下特点:
- 面向通用领域
- 以常识性知识为主
- 形态通常为结构化的百科知识、
- 强调的是知识的广度
- 使用者一般是普通用户
2. 行业知识图谱
??号称“硅谷最神秘科技公司”的Palantir是行业知识图谱领域的典型代表,其软件允许客户对大量的敏感数据进行语义关联分析,以防止欺诈,确保数据安全等。17年对Palantir做个系统调研,动态本体的理念是业内应该吸收和参考的点,后续也计划对于Palantir做一个系统介绍
??行业知识图谱相对通用知识图谱拥有如下特性:
- 面向特定领域的知识图谱。
- 用户目标对象需要考虑行业中各种级别的人员,不同人员对应的操作和业务场景不同,因而需要一定的深度与完备性。
- 行业知识图谱对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持。
- 有严格与丰富的数据模式,行业知识图谱中的实体通常属性比较多且具有行业意义。
??每个行业数据各有其特点,但通用的特点可以总结为以下四点:
- 数据来源多:内部数据、互联网数据、第三方数据。
- 数据类型多:包含结构化、半结构化、非结构化数据,且后两者越来越多。
- 数据模式无法预先确定:模式在数据出现之后才能确定;数据模式随数据增长不断演变。
- 数据量大:在大数据背景下,行业应用的数据的数量通常都以亿级别计算,存在通常在TB、PB级别甚至更多。
??行业知识图谱已经在以下很多领域有了很好的应用,下面会举一些案例进行介绍。需要说明的是通用知识图谱与行业知识图谱并不是相互对立,而是相互补充的一个关系,利用通用知识图谱的广度结合行业知识图谱的深度,可以形成更加完善的知识图谱。通用知识图谱中的知识,可以作为行业知识图谱构建的基础;而构建的行业知识图谱,再融合到通用知识图谱中。两者是相辅相成,可以结合使用的
2.1 行业知识图谱案例
2.1.1金融行业图谱
??首先看金融领域,目前金融证券领域应用主要侧重于两个方面,一个是企业知识图谱,另一个是金融交易知识图谱
2.1.1.1 企业知识图谱
??企业数据包括:企业基础数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据等。
??利用知识图谱融合以上企业数据,根据交流,例如PlantData、同盾等都做了企业知识图谱,并在企业知识图谱之上利用图谱的特性,针对金融业务场景研发了一系列的图谱应用,需要强调的是技术无罪,合法合规。
??以下6大功能为常用的企业知识图谱应用。
??1)企业风险评估
??基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据,利用图计算等方法构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。
??2)企业社交图谱查询
??基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业关联。
??3)企业最终控制人查询
??基于股权投资关系寻找持股比例最大的股东,最终追溯至自然人或国有资产管理部门。
??4)企业之间路径发现
在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度。
??5)企业之间路径发现
??基于企业知识图谱中的投融资事件发生的时间顺序,记录企业的融资发展历程。
??6)企业之间路径发现
??用户可以通过输入自然语言问题,系统直接给出用户想要的答案。
2.1.1.2 金融交易知识图谱
??金融交易知识图谱在企业知识图谱之上,增加交易客户数据、客户之间的关系数据以及交易行为数据等,利用图挖掘技术,包括很多业务相关的规则,来分析实体与实体之间的关联关系,最终形成金融领域的交易知识图谱。
??有了这样一个交易知识图谱之后,可以支持如下的应用
??1) 辅助信贷审核
??基于知识图谱数据的统一查询,全面掌握客户信息;避免由于系统、数据等孤立造成的信息不一致造成信用重复使用、信息不完整等问题。
??2) 反欺诈
??不一致性验证可以用来判断一个借款人的欺诈风险,类似交叉验证。比如借款人A和借款人B填写的是同一个公司电话,但借款人A填写的公司和借款人B填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。
??组团进行欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。如下图可以看出贷款人A、B和C之间没有直接的关系,但通过知识图谱可以很容易的看出这三者之间都共享着某一部分信息,存在一定的组团骗贷风险。
??3) 其他
- 异常分析(异常交易、异常客户)
- 失联客户管理
- 精准营销
……
2.1.2 医疗知识图谱
??知识图谱与医疗数据的结合形成医疗知识图谱,医疗数据包括:医疗专业知识、医疗文献、医疗常识、电子病历大数据、医案、现有医疗资源、疾病库、指南与规范。
行业内比较知名的应用和项目如下
2.1.3.1 中医药知识平台
??中医药知识平台(http://www.tcmkb.cn)是一个针对中医药知识体系系统梳理、建模和展示的平台,它以图形可视化方式展示核心概念之间的关系,辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。
??其优势在于与阅读文献等手段相比,可大幅度节约知识检索获取时间。
2.1.3.2 Open PHACTS
??欧盟重大联合攻关项目,面向药物研发的开放数据访问平台,其核心就是采用语义技术为有关研究人员提供高效的数据访问技术环境的支持
2.1.3.3 Watson
??IBM 的 Watson 机器人已经在医院里辅助医生对病人进行医疗诊断。安德森癌症中心联合IBM Watson开展终结癌症的任务,其底层核心就是用了知识图谱相关技术。
2.1.3 其他行业知识图谱
??知识图谱在许多其他行业也有应用,这里篇幅有限,我们仅列出方向及应用点。
- 农业
- 识别作物危害
- 政府行业
- 政府大数据管理
- 客服系统
- 基于知识图谱的智能客服系统
……
2.2 行业图谱特点
??对比通用图谱,行业图谱一般包含以下特点:
- 面向某一领域
- 基于行业数据构建
- 强调知识的深度
- 强调知识的可靠性
- 潜在使用人员是行业人员
参考文献
[1] 知识图谱研究进展
[2] 行业知识图谱构建与应用
[3] 知识图谱方法、实践与应用
以上是关于通用知识图谱VS行业知识图谱的主要内容,如果未能解决你的问题,请参考以下文章