如何获取维基词典页面的 Html 源代码? [复制]
Posted
技术标签:
【中文标题】如何获取维基词典页面的 Html 源代码? [复制]【英文标题】:How do I get Html Source of a Wiktionary page? [duplicate] 【发布时间】:2013-04-21 16:37:36 【问题描述】:我正在努力使用 Wiki Api。如何使用 API 简单地获取页面 html。我知道这是可能的,因为我以前做过,但我不记得该怎么做。
假设我想要页面http://en.wiktionary.org/wiki/bicycle 的页面源,我该怎么做。我使用什么 API。我不想在浏览器中查看?
【问题讨论】:
在浏览器中,按Ctrl
+U
。如果你不使用浏览器,那你用什么?
我想使用 Java。基本上有一个我可以输入的 URL,如果在浏览器中输入,它将显示页面源。如果我在 JAVA 中创建 URL,它将获取页面源。
URL 本身是某种查询。
【参考方案1】:
使用 Java 和 Jsoup 你可以这样做:
Document document = Jsoup
.connect("http://en.wiktionary.org/wiki/bicycle")
.get();
Element bodyContent = document.select("div#bodyContent").first();
System.out.println(bodyContent.html());
【讨论】:
【参考方案2】:假设您需要 HTML,则使用 MediaWiki API 的“解析”操作:
http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=text&disablepp=1&format=json
如果您正在寻找原始 wikitext,您只需请求不同的属性:
http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=wikitext&disablepp=1&format=json
【讨论】:
以上是关于如何获取维基词典页面的 Html 源代码? [复制]的主要内容,如果未能解决你的问题,请参考以下文章