知识图谱OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)
Posted ZSYL
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识图谱OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)相关的知识,希望对你有一定的参考价值。
OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)
1. 背景
海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海洋问题一直是国家战略问题。在党的十八大报告中首次提出建设海洋强国的战略目标,并在十九大报告中提出“坚持陆海统筹,加快建设海洋强国”。鱼类作为重要的海洋资源,它含有丰富的活性物质。这些活性物质经加工后可添加到人体食品和药品中。随着海洋鱼类相关物、生物制品和生物材料在国民经济和民生中地位的提高,海洋鱼类的数据在科研、科研以及医疗、渔业等多个领域的科学研究中变得越来越重要。
目前,绝大多数海洋鱼类数据库资源集成度不高,造成数据分散,检索效率低下。各种各样的问题将阻碍海洋鱼类的研究。因此,为了促进鱼类在各个学术领域的研究,迫切需要整合现有的研究资料,保护现有的研究成果。基于此,我们的研究团队收集和建立了海洋鱼类数据集,希望为我国鱼类的科普、教育、商业、生产等领域提供帮助。
2. 数据集简介
海洋鱼类百科知识图谱数据包含fish.csv、fishplacerelationship.csv 和 place.csv
三个CSV文件。
2.1 fish.csv
fish.csv
文件中存储的是鱼类基本信息数据集,包含鱼类中英文名称、图片地址、鱼的特性
等基本信息,数据量达到 3 万多条,其具体字段信息如表所示:
鱼类基本信息数据字段解释表:
fish.csv
数据展示:
2.2 place.csv
place.csv
文件存储的是地理分布数据集,数据量达到 5300 条,其具体字段信息如表所示:
鱼类栖息地数据字段解释表:
place.csv
数据展示:
2.3 fishplacerelationship.csv
fishplacerelationship.csv
文件存储的是海洋鱼类栖息地数据集,数据量达到 11 万条,其具体字段信息如表所示:
鱼类栖息地数据字段解释表:
fishplacerelationship.csv
数据展示:
3. 构建过程
3.1 数据来源
数据来自中文海洋鱼类资料库 http://sea.fundiving.com/, 整个网站包括32070 个鱼类物种,每个物种有一个单独的页面介绍,如图所示。
中文海洋鱼类资料库中纺锤骨雀鳝部分数据
介绍页面中包含中英文名字、界门纲目科属种、别名、简介、大小/重量/年龄、生活习性、物种分布、生物学特性等字段。
3.2 数据标准化
每个页面都包含鱼类对应的界门纲目科属种等半结构化数据,利用爬虫技术获取鱼类相关信息,将其保存成Json 格式,如图 2 所示。
鱼类信息Json格式
3.3 关系定义和抽取
知识图谱使用三元组进行表达, 例如:实体-关系-实体
, 实体-属性-属性值
。鱼类名称、英文名、图片地址、界、门、纲、目、科、属、种,这些属于第二种三元组。使用 Json 格式,即键值对,好处之一就是属性和属性值一一对应。在提取的时候,可以直接进行匹配。
鱼类实体-地理分布-地理实体这是第一种三元组。由于是一段文本,需要从文中提取地理实体,可以使用 NLP 工具进行抽取,比如 Python 第三方开源库NLPIR、PyLTP、DeepKE 等等。
通过传入待处理文本 text,对文本依次进行分词、词性标注、命名实体识别操作
。对于有方位的名词,例如西太平洋,需要进行二次处理。抽取效果如图所示:
NLP地理实体抽取效果
3.4 知识存储
使用 Neo4J 图数据库进行数据的存储,可以快速获得展示和查询功能。帮助开发人员节省时间在业务思考上。按照 Neo4J 数据库官网所给的格式要求存储CSV 数据
。
可视化效果如图所示:
4. 总结
本文主要是对 OpenKG 上发布的中文海洋鱼类百科数据集的介绍。文中详细介绍了数据集的来源、对数据集进行处理构建知识图谱的过程。
-
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
-
更多:知识图谱-专栏
-
OpenKG地址:http://openkg.cn/dataset/ocean
-
开放许可协议:CC BY-SA 4.0
-
贡献者:浙江大学(徐雅静、邓鸿杰、唐坤、郑国轴)
-
原文地址:OpenKG
加油!
感谢!
努力!
以上是关于知识图谱OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)的主要内容,如果未能解决你的问题,请参考以下文章