如何过滤语言的Wikidata dump?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何过滤语言的Wikidata dump?相关的知识,希望对你有一定的参考价值。
我已经以RDF格式(.nt.bz2文件)下载了Wikidata真实转储。我想将转储的语言限制为仅英语,并将此新筛选的转储生成为新的.nt文件。
我已经尝试使用并行grep来过滤带有'@en'文本的行,但是这会占用大量处理时间。
是否有一些更快的方法来生成过滤的转储?喜欢使用Spark吗?
答案
也许对您来说有点晚了,但是同时生成了一个用于创建自定义转储的工具:https://tools.wmflabs.org/wdumps/
使用此工具,您可以在线定义语言过滤器,然后仅下载具有相关三元组的.nt文件。
以上是关于如何过滤语言的Wikidata dump?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Wikidata 上创建一个 SPARQL 查询,以获取所有具有 Project Gutenberg 电子书 ID 的书籍?