如何使用 R 和 rvest 轮换代理和 IP 地址

Posted

技术标签:

【中文标题】如何使用 R 和 rvest 轮换代理和 IP 地址【英文标题】:How To Rotate Proxies and IP Addresses using R and rvest 【发布时间】:2021-07-03 06:18:35 【问题描述】:

我正在做一些抓取,但是当我解析大约 4000 个 URL 时,网站最终会检测到我的 IP 并每 20 次迭代阻止我一次。

我已经写了一堆Sys.sleep(5) 和一个tryCatch,所以我不会很快被屏蔽。

我使用 ***,但我必须不时手动断开连接并重新连接以更改我的 IP。这样的刮刀应该整夜运行,这不是一个合适的解决方案。

我认为轮换代理应该可以完成这项工作。

这是我当前的代码(至少是其中的一部分):

library(rvest)
library(dplyr)

scraped_data = data.frame()

for (i in urlsuffixes$suffix)
  
  
  tryCatch(
    message("Let's scrape that, Buddy !")
    
    Sys.sleep(5)
 
    doctolib_url = paste0("https://www.website.com/test/", i)

    page = read_html(site_url)
    
    links = page %>%
      html_nodes(".seo-directory-doctor-link") %>%
      html_attr("href")
    
    Sys.sleep(5)
    
    name = page %>%
      html_nodes(".seo-directory-doctor-link") %>%
      html_text()
    
    Sys.sleep(5)
    
    job_title = page %>%
      html_nodes(".seo-directory-doctor-speciality") %>%
      html_text()
    
    Sys.sleep(5)
    
    address = page %>%
      html_nodes(".seo-directory-doctor-address") %>%
      html_text()
    
    Sys.sleep(5)
    
    scraped_data = rbind(scraped_data, data.frame(links,
                                                  name,
                                                  address,
                                                  job_title,
                                                  stringsAsFactors = FALSE))
    
  , error=function(e)cat("Houston, we have a problem !","\n",conditionMessage(e),"\n"))
  print(paste("Page : ", i))

【问题讨论】:

【参考方案1】:

有趣的问题。我认为首先要注意的是,正如在this Github issue、rvestxml2 中提到的那样,使用httr 进行连接。因此,我将在此答案中引入httr

通过 httr 使用代理

以下代码块展示了如何使用httr 使用代理查询 url 并提取 html 内容。

page <- httr::content(
    httr::GET(
        url, 
        httr::use_proxy(ip, port, username, password)
    )
)

如果您使用 IP 身份验证或不需要用户名和密码,您可以简单地从调用中排除这些值。

简而言之,您可以将page = read_html(site_url) 替换为上面的代码块。

轮换代理

使用代理的一个大问题是获得可靠的代理。为此,我只是假设您有可靠的来源。由于您没有另行说明,我将假设您的代理以以下合理的格式存储,对象名称为proxies

ip port
64.235.204.107 8080
167.71.190.253 80
185.156.172.122 3128

考虑到这种格式,您可以调整上面的脚本块,为每个网络请求轮换代理,如下所示:

library(dplyr)
library(httr)
library(rvest)

scraped_data = data.frame()

for (i in 1:length(urlsuffixes$suffix))
  
  
  tryCatch(
    message("Let's scrape that, Buddy !")
    
    Sys.sleep(5)
 
    doctolib_url = paste0("https://www.website.com/test/", 
                          urlsuffixes$suffix[[i]])
   
   # The number of urls is longer than the proxy list -- which proxy to use
   # I know this isn't the greatest, but it works so whatever
   proxy_id <- ifelse(i %% nrow(proxies) == 0, nrow(proxies), i %% nrow(proxies))

    page <- httr::content(
        httr::GET(
            doctolib_url, 
            httr::use_proxy(proxies$ip[[proxy_id]], proxies$port[[proxy_id]])
        )
    )
    
    links = page %>%
      html_nodes(".seo-directory-doctor-link") %>%
      html_attr("href")
    
    Sys.sleep(5)
    
    name = page %>%
      html_nodes(".seo-directory-doctor-link") %>%
      html_text()
    
    Sys.sleep(5)
    
    job_title = page %>%
      html_nodes(".seo-directory-doctor-speciality") %>%
      html_text()
    
    Sys.sleep(5)
    
    address = page %>%
      html_nodes(".seo-directory-doctor-address") %>%
      html_text()
    
    Sys.sleep(5)
    
    scraped_data = rbind(scraped_data, data.frame(links,
                                                  name,
                                                  address,
                                                  job_title,
                                                  stringsAsFactors = FALSE))
    
  , error=function(e)cat("Houston, we have a problem !","\n",conditionMessage(e),"\n"))
  print(paste("Page : ", i))

这可能还不够

您可能需要更进一步,向httr 请求添加元素,例如用户代理等。但是,像httr 这样的包的一个大问题是它无法呈现动态 html 内容,例如 javascript 渲染的 html,任何真正关心阻止爬虫的网站都会检测到这一点。为了解决这个问题,有一些工具,例如 Headless Chrome,旨在专门解决此类问题。这是您可能想要查看headless Chrome in R 的软件包注意:仍在开发中。

免责声明

显然,我认为这段代码会起作用,但由于没有可重复的数据进行测试,它可能不会。

【讨论】:

以上是关于如何使用 R 和 rvest 轮换代理和 IP 地址的主要内容,如果未能解决你的问题,请参考以下文章

使用特定 URL 和脚本构建代理轮换器

R - 如何使用 rvest 或 rcurl 点击网页

如何使用 R 中的 rvest 通过以下方式从 Wikipedia 获取“类别”?

R语言rvest包网络爬虫

如何在 Python 请求上轮换代理

R:rvest提取innerHTML