Python3安装PhantomJS和Selenium
Posted 肥宝Fable
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python3安装PhantomJS和Selenium相关的知识,希望对你有一定的参考价值。
之前抓取了某个网站,写了个总结。 点击打开链接
想着隔一段时间搞一下,结果这几日发现抓取报错。查看一下提示封我IP了。
但是我用浏览器打开是没有问题的。
估计是我写的爬虫隐藏能力还不够强,被直接认定为爬虫了。只是人家唬我而已。其实后来发现是cookie的问题。不过这个文章就不说这个了。
一开始觉得可能是gzip压缩可能被认出,然后我就加了支持gzip了。发下你还不行。只好试试js的运行了。
PhantomJS可以用来执行javascript。网上说了很多怎么用。但是都没有几个跟python结合的。虽然标题写着python。
先下载下来再说吧。 点击打开链接
下载下来解压,居然是exe的。一脸懵逼。。。
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get("http://hotel.qunar.com/")
data = driver.title
print data
然后人家给了一个测试代码。我死活提示找不到这个模块。
难道我的eclipse有问题?用idle执行以下。还是提示No module named ' selenium'
想想不对啊。模块不是应该叫phantomjs么,怎么成了 selenium了。
点击打开链接
继续搜索,发现问题了
原来PhantomJS主要用于java,可以理解成一个比较完善的浏览器,不过这个浏览器不是给人使用的,而是给程序使用的。这不是Python弄出来的东西。是为了自动化前端测试用的。
有了PhantomJS之后,怎么用Python的代码调用它呢?
其实就是 selenium的作用了。一开始我以为是一个专门用来调用PhantomJS的模块。
后来发现只要安装相应的插件,还可以调用IE,Chrome,FireFox之类的比较出名的浏览器。
顺便说一下pip的安装。https://pypi.python.org/pypi/pip
可以下载.whl文件。但是这是需要pip来安装,应该是用来升级的。或者用其他的工具来安装的。
另外一个是tar.gz文件。里面好像是有源码,还有一个setup.py文件。下载下来,用python install setup.py即可安装。
然后直接 pip install selenium 即可安装了,不需要自己去找官网下载。它自动下载的。
怪不得很多人说不装pip的都是傻逼。原来我之前一直没弄这个真的是傻逼了。
好吧。上面的测试代码是可以走得通。但是新的问题又来了。
selenium的工作模式明显跟之前用urllib是不同的。之前写的代理池,头生成,模拟,隐藏,好像都用不上。
不过好像还是可以设置的。基本上是把原来的全隐藏了,现在更像使用工具。不过作为一个黑盒子式的工具,肯定也有不方便的地方。
只能慢慢研究了。不过我自己是以成果导向来学习的。不知道啥时候再了解这个了。哈哈哈
以上是关于Python3安装PhantomJS和Selenium的主要内容,如果未能解决你的问题,请参考以下文章
[Python3网络爬虫开发实战] 1.2.5-PhantomJS的安装
[Selenium+Java] Selenium with HTMLUnit Driver & PhantomJS