如何获取维基词典页面的 Html 源代码? [复制]

Posted

技术标签:

【中文标题】如何获取维基词典页面的 Html 源代码? [复制]【英文标题】:How do I get Html Source of a Wiktionary page? [duplicate] 【发布时间】:2013-04-21 16:37:36 【问题描述】:

我正在努力使用 Wiki Api。如何使用 API 简单地获取页面 html。我知道这是可能的,因为我以前做过,但我不记得该怎么做。

假设我想要页面http://en.wiktionary.org/wiki/bicycle 的页面源,我该怎么做。我使用什么 API。我不想在浏览器中查看?

【问题讨论】:

在浏览器中,按Ctrl+U。如果你不使用浏览器,那你用什么? 我想使用 Java。基本上有一个我可以输入的 URL,如果在浏览器中输入,它将显示页面源。如果我在 JAVA 中创建 URL,它将获取页面源。 URL 本身是某种查询。 【参考方案1】:

使用 Java 和 Jsoup 你可以这样做:

Document document = Jsoup
        .connect("http://en.wiktionary.org/wiki/bicycle")
        .get();

Element bodyContent = document.select("div#bodyContent").first();

System.out.println(bodyContent.html());

【讨论】:

【参考方案2】:

假设您需要 HTML,则使用 MediaWiki API 的“解析”操作:

http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=text&disablepp=1&format=json

如果您正在寻找原始 wikitext,您只需请求不同的属性:

http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=wikitext&disablepp=1&format=json

【讨论】:

以上是关于如何获取维基词典页面的 Html 源代码? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

如何获取真正的html页面源代码? [复制]

GoldenDict词典下载安装

如何使用库来获取维基百科页面?

macOS实现词典正常查询维基百科

macOS实现词典正常查询维基百科

如何获得Python中的维基百科讨论页内容