使用rvest在页面中提取多个表

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用rvest在页面中提取多个表相关的知识,希望对你有一定的参考价值。

如何将所有列表转换为数据帧,附加所有数据帧并导出到csv?

library(rvest)

webpage <- read_html("https://www.sec.gov/Archives/edgar/data/21665/000144530512000409/exhibit21.htm")

tbls <- html_nodes(webpage, "table")
tbls_ls <- html_table(tbls,fill = TRUE)

colnames(tbls_ls[[1]]) <- c("Name", "Country")
答案

您可以从链接获取所有表,并使用bind_rows将它们绑定在一起

library(rvest)
library(dplyr)

url <- "https://www.sec.gov/Archives/edgar/data/21665/000144530512000409/exhibit21.htm"

url %>%
  read_html() %>%
  html_table() %>%
  bind_rows()

但是,这需要稍微清理和重命名,因为它不会单独标识列名。

以上是关于使用rvest在页面中提取多个表的主要内容,如果未能解决你的问题,请参考以下文章

R:rvest提取innerHTML

读取带有 rvest 的 HTML 表有时会卡住并产生超时错误

如何使用 R 中的 rvest 通过以下方式从 Wikipedia 获取“类别”?

使用 rvest 抓取可折叠表的问题

R语言爬虫:Rvest包函数介绍

R语言(XML/rvest)下载网页表格