R语言爬虫:穿越表单

Posted 嘻呵呵

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言爬虫:穿越表单相关的知识,希望对你有一定的参考价值。

使用rvest包实现实现穿越表单以及页面的跳转

formurl <- "http://open.xmu.edu.cn/oauth2/authorize?client_id=1010&response_type=code"
session <- html_session(formurl) 
#创建会话
form <- html_form(session) 
#得到网页内的所有表单,以list形式返回
str(form)
form <- form[[1]] 
#提取我们想要的表单
UserName <- "*******" #这里填写你自己的学号
Password <- "*******" #这里把password替换成你自己的密码
form <- set_values(form,'UserName'=UserName,'Password'=Password) 
#填写表单内容
out_url <- submit_form(session,form,submit=NULL) 
#在会话中提交表单,实现表单穿越
class(out_url)
session2 <- follow_link(out_url,'Advanced Econometrics')
course.info <- session2 %>% html_nodes("ul.section") %>% html_text() 
#爬取属性为section的ul节点,获取其下面列表的所有文本内容
cat(course.info[1])

以上是关于R语言爬虫:穿越表单的主要内容,如果未能解决你的问题,请参考以下文章

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

必须 路径穿越检查

HTTP协议与R语言爬虫 | R语千寻

R语言rvest包网络爬虫

[R语言] 利用RSelenium/ Rwebdriver抓取动态页面