如何打开自定义 wikidata RDF 转储

Posted

技术标签:

【中文标题】如何打开自定义 wikidata RDF 转储【英文标题】:How to open custom wikidata RDF dumps 【发布时间】:2021-11-30 22:58:19 【问题描述】:

我从 https://wdumps.toolforge.org/ 创建了一个自定义 wikidata 转储。谁能告诉我如何打开和阅读该转储文件?文件采用 .nt 格式

您可以在此处找到最近的转储文件:https://wdumps.toolforge.org/dumps

【问题讨论】:

【参考方案1】:

取决于你想怎么读。使用 Visual Studio 代码,您只需打开文件并查看其中的内容。我认为其他文本编辑器也应该可以工作。或者你想要一个更具体的应用程序吗?

还可以方便地提及您是否在 Windows 上。

更新:

您首先需要解压缩它,您可以在命令行上使用 winzip 或任何语言的库来执行此操作。

https://support.winzip.com/hc/en-us/articles/115011594767-How-to-extract-gzip-and-tar-files-on-the-command-line

然后你会得到一个包含如下行的文件:

<http://wikiba.se/ontology#Property> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/2002/07/owl#Class> .

从那里你可以用正则表达式解析它以从中取出页面,不知道你想要什么?属性、类型或类?

【讨论】:

我只想获取页面标题。您能否指导如何仅导出文件中的页面标题而不是该页面内的任何内容。我在窗户上。 更新了我的答案

以上是关于如何打开自定义 wikidata RDF 转储的主要内容,如果未能解决你的问题,请参考以下文章

使用 python 从 wikidata 转储中提取别名

使用 MapReduce 解析 Freebase RDF 转储

我们如何在 AWS Neptune 上的 RDF 图中对对象进行分组并为组分配通用颜色?

如何读取 RDF 报告文件

如何在 Wikidata 上创建一个 SPARQL 查询,以获取所有具有 Project Gutenberg 电子书 ID 的书籍?

R语言使用caret包对GBM模型参数调优SVM模型自定义参数调优RDF模型自定义参数调优(例如,ROC)重采样对多个模型的性能差异进行统计描述可视化多模型在多指标下的性能对比分析