如何过滤语言的Wikidata dump？

Posted 2021-04-30

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何过滤语言的Wikidata dump？相关的知识，希望对你有一定的参考价值。

我已经以RDF格式（.nt.bz2文件）下载了Wikidata真实转储。我想将转储的语言限制为仅英语，并将此新筛选的转储生成为新的.nt文件。

我已经尝试使用并行grep来过滤带有'@en'文本的行，但是这会占用大量处理时间。

是否有一些更快的方法来生成过滤的转储？喜欢使用Spark吗？

答案

也许对您来说有点晚了，但是同时生成了一个用于创建自定义转储的工具：https://tools.wmflabs.org/wdumps/

使用此工具，您可以在线定义语言过滤器，然后仅下载具有相关三元组的.nt文件。

以上是关于如何过滤语言的Wikidata dump？的主要内容，如果未能解决你的问题，请参考以下文章

如何打开自定义 wikidata RDF 转储

Wikidata和SparQL简介

如何在 Wikidata 上创建一个 SPARQL 查询，以获取所有具有 Project Gutenberg 电子书 ID 的书籍？

C语言如何实现满足多条件匹配简单过滤问题

如何使用语言过滤器从SonarCloud获取指标？

如何使用 Querydsl 和 Spring Data 轻松实现“REST API 查询语言”来过滤实体？