爬虫3:html页面+webdriver模块+demo

Posted rongyux

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫3:html页面+webdriver模块+demo相关的知识,希望对你有一定的参考价值。

  保密性好的网站,不能使用request请求页面信息,这样可以使用webdriver模块先开启一个浏览器,然后爬去信息,甚至还可以click等操作对页面操作,再爬取。

  demo 一般流程:

  1)包含selenium 模块

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

  2)设置采用火狐浏览器(chrome也可以)

driver = webdriver.Firefox()

  3)get方式打开(为了保密,url省略)

driver.get("http://www.---------------")

  4)css方式筛选

elements = driver.find_elements_by_css_selector("span.c9.ng-binding")

  5)由于webdriver模块的筛选功能不是很好用,这里推荐转成html形式,然后使用beautifulsoap筛选

html = driver.page_source

  6)BeautifulSoup筛选信息-find_all  和 css 选择器方式更好用

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html)
# soup.find_all(div,text=re.compile(u"信息"))[0]
for i in soup.select(a[href*="human"]):
    print i

 

以上是关于爬虫3:html页面+webdriver模块+demo的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫动态html selenium.webdriver

爬虫3:pdf页面+pdfminer模块+demo

Python爬虫 selenium

python 利用爬虫获取页面上下拉框里的所有国家

python爬虫模块的安装

python下用selenium的webdriver包如何取得打开页面的html源代码呢