知识图谱OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)

Posted ZSYL

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识图谱OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)相关的知识,希望对你有一定的参考价值。

1. 背景

  海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海洋问题一直是国家战略问题。在党的十八大报告中首次提出建设海洋强国的战略目标,并在十九大报告中提出“坚持陆海统筹,加快建设海洋强国”。鱼类作为重要的海洋资源,它含有丰富的活性物质。这些活性物质经加工后可添加到人体食品和药品中。随着海洋鱼类相关物、生物制品和生物材料在国民经济和民生中地位的提高,海洋鱼类的数据在科研、科研以及医疗、渔业等多个领域的科学研究中变得越来越重要

  目前,绝大多数海洋鱼类数据库资源集成度不高,造成数据分散,检索效率低下。各种各样的问题将阻碍海洋鱼类的研究。因此,为了促进鱼类在各个学术领域的研究,迫切需要整合现有的研究资料,保护现有的研究成果。基于此,我们的研究团队收集和建立了海洋鱼类数据集,希望为我国鱼类的科普、教育、商业、生产等领域提供帮助。

2. 数据集简介

  海洋鱼类百科知识图谱数据包含fish.csv、fishplacerelationship.csv 和 place.csv三个CSV文件。

2.1 fish.csv

fish.csv 文件中存储的是鱼类基本信息数据集,包含鱼类中英文名称、图片地址、鱼的特性等基本信息,数据量达到 3 万多条,其具体字段信息如表所示:

鱼类基本信息数据字段解释表:

fish.csv 数据展示:

2.2 place.csv

place.csv 文件存储的是地理分布数据集,数据量达到 5300 条,其具体字段信息如表所示:

鱼类栖息地数据字段解释表:

place.csv 数据展示:

2.3 fishplacerelationship.csv

fishplacerelationship.csv 文件存储的是海洋鱼类栖息地数据集,数据量达到 11 万条,其具体字段信息如表所示:

鱼类栖息地数据字段解释表

fishplacerelationship.csv 数据展示:

3. 构建过程

3.1 数据来源

数据来自中文海洋鱼类资料库 http://sea.fundiving.com/, 整个网站包括32070 个鱼类物种,每个物种有一个单独的页面介绍,如图所示。

中文海洋鱼类资料库中纺锤骨雀鳝部分数据

介绍页面中包含中英文名字、界门纲目科属种、别名、简介、大小/重量/年龄、生活习性、物种分布、生物学特性等字段。

3.2 数据标准化

每个页面都包含鱼类对应的界门纲目科属种等半结构化数据,利用爬虫技术获取鱼类相关信息,将其保存成Json 格式,如图 2 所示。

鱼类信息Json格式

3.3 关系定义和抽取

  知识图谱使用三元组进行表达, 例如:实体-关系-实体实体-属性-属性值。鱼类名称、英文名、图片地址、界、门、纲、目、科、属、种,这些属于第二种三元组。使用 Json 格式,即键值对,好处之一就是属性和属性值一一对应。在提取的时候,可以直接进行匹配。

  鱼类实体-地理分布-地理实体这是第一种三元组。由于是一段文本,需要从文中提取地理实体,可以使用 NLP 工具进行抽取,比如 Python 第三方开源库NLPIRPyLTPDeepKE 等等。

通过传入待处理文本 text,对文本依次进行分词、词性标注、命名实体识别操作。对于有方位的名词,例如西太平洋,需要进行二次处理。抽取效果如图所示:

NLP地理实体抽取效果

3.4 知识存储

使用 Neo4J 图数据库进行数据的存储,可以快速获得展示和查询功能。帮助开发人员节省时间在业务思考上。按照 Neo4J 数据库官网所给的格式要求存储CSV 数据

可视化效果如图所示

4. 总结

本文主要是对 OpenKG 上发布的中文海洋鱼类百科数据集的介绍。文中详细介绍了数据集的来源、对数据集进行处理构建知识图谱的过程。


加油!

感谢!

努力!

以上是关于知识图谱OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)的主要内容,如果未能解决你的问题,请参考以下文章

如何高效学习 Kubernetes 知识图谱?

开源知识图谱介绍

知识图谱开源开放及生态 | 7月12日TF65

知识图谱实战系列六:Lucene在知识图谱上构建索引

知识图谱系列教程

大厂技术实现 | 爱奇艺文娱知识图谱的构建与应用实践 @自然语言处理系列