Rvest 和 Google 新闻网页抓取:不起作用

Posted

技术标签:

【中文标题】Rvest 和 Google 新闻网页抓取:不起作用【英文标题】:Rvest and Google News Web Scraping: Not Working 【发布时间】:2022-01-19 18:19:01 【问题描述】:

我是网络抓取的新手,下面的代码生成一个空字符向量,不知道如何解决:

google_url <- "https://news.google.com/topstories?hl=en-GB&gl=GB&ceid=GB:en"
google <- read_html(google_url)
articles <- google %>% html_nodes('.VDXfz') %>% html_text()
articles 

【问题讨论】:

您可以通过html_nodes('.VDXfz') %&gt;% html_attr('href')获取网页链接,但无法获得头条。 请务必让我们知道您尝试使用的软件包。图书馆(rvest) 请提供足够的代码,以便其他人更好地理解或重现问题。 【参考方案1】:

以下内容将从当前加载的页面中获取所有标题。如果您需要滚动并进一步提取数据,则需要RSelenium

library(rvest)
url = 'https://news.google.com/topstories?hl=en-GB&gl=GB&ceid=GB:en'

url %>% read_html() %>% html_nodes('.lBwEZb') %>% 
  html_nodes('.DY5T1d') %>% 
  html_text()

[1] "Liz Truss to hold Brexit talks with EU over NI protocol"                                                                             
 [2] "Lord Frost: I didn't support PM's coercive Covid plan"                                                                               
 [3] "David Frost: I never disagreed with Boris Johnson over Brexit policy – only coercive Covid rules"                                    
 [4] "Look at the lauding of David Frost and see a government deranged by the poison of Brexit"                                            
 [5] "What happened to the amiable, hard-working David Frost I once knew?"                                                                 
 [6] "COVID-19: Omicron now dominant variant in US after making up 73% of new cases, says CDC"   

【讨论】:

以上是关于Rvest 和 Google 新闻网页抓取:不起作用的主要内容,如果未能解决你的问题,请参考以下文章

R - 如何使用 rvest 或 rcurl 点击网页

使用 rvest 或 httr 登录网页上的非标准表单

R:如何打开链接列表来抓取新闻网站的主页?

数据爬虫:AJAX与网页动态加载 | R语千寻

R语言(XML/rvest)下载网页表格

rvest - 在 1 个标签中抓取 2 个类