如何从维基百科页面中提取数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何从维基百科页面中提取数据相关的知识,希望对你有一定的参考价值。

使用javascript从这个维基百科页面的表中提取数据的最佳方法是什么?

https://en.wikipedia.org/wiki/Most_common_words_in_Spanish

我已经尝试使用以下代码来获取JSON,但它没有奏效。然后,一旦我获得JSON,我将如何从表中获取数据?

fetch('https://en.wikipedia.org/wiki/Most_common_words_in_Spanish')
  .then(function(response) {
    return response.json();
  })
  .then(function(response){
  	console.log(response)
  })
答案

这段代码将把你的表作为html节点:

var url = 'https://en.wikipedia.org/w/api.php?action=parse&format=json&origin=*&page=Most%20common%20words%20in%20Spanish';

fetch(url)
  .then(function(response) {
    return response.json();
  })
  .then(function(response){
    html_code = response["parse"]["text"]["*"];
    parser = new DOMParser();
    html = parser.parseFromString(html_code, "text/html");
    var tables = html.querySelectorAll(".wikitable");
    console.log(tables);
  })

以上是关于如何从维基百科页面中提取数据的主要内容,如果未能解决你的问题,请参考以下文章

在Scrapy中递归折叠二级链接

Python - BS4 - 仅使用表头+保存为字典从维基百科表中提取子表

如何从维基百科中获取所有标题的JSON [关闭]

python 从维基百科页面中截取所有表格标题

如何获得Python中的维基百科讨论页内容

wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5