R语言(XML/rvest)下载网页表格

Posted 561号

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言(XML/rvest)下载网页表格相关的知识,希望对你有一定的参考价值。

  1. 常用R包为XML,rvest

  2. 下载的表格首行为列名

  3. 解析网页时要理解节点的概念

  4. extract相当于:[

  5. extract2相当于:[[

  6. read_html() 读取html页面

  7. html_nodes() 提取所有符合条件的节点

  8. html_node() 返回一个变量长度相等的list

  9. html_table() 获取table标签中的表格

  10. extract2() 提取list中的表格


XML包

# XML实现网页抓取表格----library(XML)# 网页表格待下载url <- "http://cbadata.sports.sohu.com/ranking/players/2020/0/6"# 解析网页doc <- htmlParse(url)# 获取表格tableNodes <- getNodeSet(doc, "//table")list(tableNodes)# 将HTML转换为数据框tb <- readHTMLTable(tableNodes[[13]])# 简写tb <- htmlParse("http://cbadata.sports.sohu.com/ranking/players/2020/0/6") %>%  getNodeSet("//table") %>%  .[[13]] %>%  readHTMLTable()names(tb) <- tb[1,]tb <- tb[-1,]tb
url <- "http://cbadata.sports.sohu.com/ranking/players/2020/0/6"tb <- readHTMLTable(url,which = 13)names(tb) <- tb[1,]tb <- tb[-1,]


rvest包

# 网页抓取----library(rvest)ls("package:rvest")library(magrittr)# 实战----# 以中国统计局的网页为例tjj_html <- read_html("http://www.stats.gov.cn/tjzs/cjwtjd/201407/t20140714_580886.html")res_table <- tjj_html %>%  html_nodes("table") %>% html_table(header=TRUE) %>%   extract2(2)


以上是关于R语言(XML/rvest)下载网页表格的主要内容,如果未能解决你的问题,请参考以下文章

[R语言] 利用RSelenium/ Rwebdriver抓取动态页面

R软件如何将爬虫得到的数据制成表格

R语言 列表能导出来吗

ATP应用测试平台——关于网页表格的打印及PDF下载的实战案例

我们如何将完整的网页数据下载到电子表格

Mac版R语言下载安装(附视频教学)