python网络爬虫:Selenium
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python网络爬虫:Selenium相关的知识,希望对你有一定的参考价值。
参考技术A 获取页面每个Cookies值,用法如下driver.add_cookie(cookie_dict)
一个浏览器肯定会有很多窗口,所以我们肯定要有方法来实现窗口的切换。切换窗口的方法如下:
imgs = driver.find_elements_by_xpath("//img")
for img in imgs:
driver.execute_script('$(arguments[0]).fadeOut()',img)
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
driver.execute_script('alert("This is a alert")')
driver.quit()
[Python3网络爬虫开发实战] 1.2.2-Selenium的安装
Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。下面我们来看看Selenium的安装过程。
1. 相关链接
- 官方网站:http://www.seleniumhq.org
- GitHub:https://github.com/SeleniumHQ/selenium/tree/master/py
- PyPI:https://pypi.python.org/pypi/selenium
- 官方文档:http://selenium-python.readthedocs.io
- 中文文档:http://selenium-python-zh.readthedocs.io
2. pip安装
这里推荐直接使用pip安装,执行如下命令即可:
1
|
pip3 install selenium
|
3. wheel安装
此外,也可以到PyPI下载对应的wheel文件进行安装(下载地址:https://pypi.python.org/pypi/selenium/#downloads),如最新版本为3.4.3,则下载selenium-3.4.3-py2.py3-none-any.whl即可。
然后进入wheel文件目录,使用pip安装:
1
|
pip3 install selenium-3.4.3-py2.py3-none-any.whl
|
4. 验证安装
进入Python命令行交互模式,导入Selenium包,如果没有报错,则证明安装成功:
1
2
|
$ python3
>>> import selenium
|
但这样做还不够,因为我们还需要用浏览器(如Chrome、Firefox等)来配合Selenium工作。
后面我们会介绍Chrome、Firefox、PhantomJS三种浏览器的配置方式。有了浏览器,我们才可以配合Selenium进行页面的抓取。
以上是关于python网络爬虫:Selenium的主要内容,如果未能解决你的问题,请参考以下文章
[Python3网络爬虫开发实战] 1.2.2-Selenium的安装
Python网络爬虫之图片懒加载技术selenium和PhantomJS
08.Python网络爬虫之图片懒加载技术selenium和PhantomJS