如何由贡献者解析Wikipedia谈话页面内容?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何由贡献者解析Wikipedia谈话页面内容?相关的知识,希望对你有一定的参考价值。

我正在解析Wikipedia讨论页面(例如https://en.wikipedia.org/wiki/Talk:Elon_Musk)。我想浏览作者/编辑的文本。不知道我该怎么做。现在,我有以下代码:

import pywikibot as pw
wikiPage="elon_musk"
page = pw.Page(pw.Site('en'), wikiPage)
talkpage = page.toggleTalkPage()
s=talkpage.text 
cs=talkpage.contributors()

似乎很难解析文本(即s)并找到每个贡献者发表的谈话文本。不确定参与者的演讲在哪里开始和结束,以及不确定其他人发表的演讲文本是什么。对话页面是否可以返回我可以循环通过的细分?

非常感谢您的帮助!

答案

我不了解pywikibot,但是您可以通过常规API来做到这一点。这将获取修订:https://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=Talk:Elon%20Musk&rvlimit=500&rvprop=timestamp|user|comment|ids

然后,您可以传递版本ID来获取每次修改的更改:例如https://en.wikipedia.org/w/api.php?action=compare&fromrev=944235185&torev=944237256

以上是关于如何由贡献者解析Wikipedia谈话页面内容?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用Wikipedia的API获取Wikipedia内容?

利用wikipedia 的API实现对其内容的查询

使用wikimedia api分别获取所有部分

与React.js 核心开发者的一次谈话记录

如何解析 WARC 文件?

用100W+行代码贡献经验,带你了解如何参与OpenHarmony开源