python Web抓取selenium模块的使用

Posted 凌晨四点的蓝

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python Web抓取selenium模块的使用相关的知识,希望对你有一定的参考价值。

一、用selenium模块控制浏览器

  selenium能让用户通过Python直接控制浏览器,实际点击链接,填写登录信息,几乎就像一个人类与浏览器交互。这能比使用Request和Beautiful Soup模块完成更多的事情,能让你以更高级的方式和浏览器交互,但是也有一个确定,比如当你只是想下载一个文件时,前者就有些复杂,并且难以在后台运行

 

1.1启动selenium控制的浏览器

  以form selenium import webdriver来导入webderiver模块

遇到了问题:

  1)selenium.common.exceptions.WebDriverException:

  在执行以下代码时出现了上个异常

>>> from selenium import webdriver
>>> browser=webdriver.Firefox()
Traceback (most recent call last):
  File "C:UsersAdministrator.SC-201605202132AppDataLocalProgramsPythonPython37libsite-packagesseleniumwebdrivercommonservice.py", line 76, in start
    stdin=PIPE)
  File "C:UsersAdministrator.SC-201605202132AppDataLocalProgramsPythonPython37libsubprocess.py", line 775, in __init__
    restore_signals, start_new_session)
  File "C:UsersAdministrator.SC-201605202132AppDataLocalProgramsPythonPython37libsubprocess.py", line 1178, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] 系统找不到指定的文件。

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<pyshell#1>", line 1, in <module>
    browser=webdriver.Firefox()
  File "C:UsersAdministrator.SC-201605202132AppDataLocalProgramsPythonPython37libsite-packagesseleniumwebdriverfirefoxwebdriver.py", line 164, in __init__
    self.service.start()
  File "C:UsersAdministrator.SC-201605202132AppDataLocalProgramsPythonPython37libsite-packagesseleniumwebdrivercommonservice.py", line 83, in start
    os.path.basename(self.path), self.start_error_message)
selenium.common.exceptions.WebDriverException: Message: ‘geckodriver‘ executable needs to be in PATH. 

  解决办法:

  错误是英文的,我先把他翻译过来之后,由于是第一次使用selenium模块,我搜索了模块的使用方法,然后发现需要webdriver驱动文件,

 

六、项目

以上是关于python Web抓取selenium模块的使用的主要内容,如果未能解决你的问题,请参考以下文章

从web抓取信息

sele nium 模块

爬虫基础(非正则)

使用 Selenium 和 Python 进行用户输入的网页抓取动态网站

C#使用Selenium+PhantomJS抓取数据

python自动化之web抓取