python爬虫环境1
Posted x2x3
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫环境1相关的知识,希望对你有一定的参考价值。
1.1 python3安装
配置环境变量;随后点击“新建”,新建一个条目,将刚才复制的C:\Python36复制进去。这里需要说明的是,此处的路径就是你的Python 3安装目录,请自行替换。然后,再把C:\Python36\Scripts路径复制进去
添加别名
上面这两种安装方式任选其一即可完成安装,但如果之前安装过Python 2的话,可能会导致版本冲突问题,比如在命令行下输入python
就不知道是调用的Python 2还是Python 3了。为了解决这个问题,建议将安装目录中的python.exe复制一份,命名为python3.exe,这样便可以调用python3
命令了。实际上,它和python
命令是完全一致的,这样只是为了可以更好地区分Python版本;在“开始”菜单中搜索cmd
,找到命令提示符,此时就进入命令行模式了。输入python
,测试一下能否成功调用Python。如果添加了别名的话,可以输入python3
测试,就调用了python3
1.2 请求库的安装
爬虫可以简单分为几步:抓取页面、分析页面和存储数据,用到一些Python库来实现HTTP请求操作;用到的第三方库有Requests、Selenium和aiohttp等
1.2.1 request的安装
安装方式 1 wheel 安装是Python的一种安装包,其后缀为.whl,在网速较差的情况下可以选择下载wheel文件再安装,然后直接用pip3
命令加文件名安装即可,下载对应的库的whl文件,切换到相应的目录执行 wheel文件目录,利用pip
安装即可 如 pip3 install requests-2.17.3-py2.py3-none-any.whl
pip 安装 命令行下执行 pip install requests
源码安装 git clone git://github.com/kennethreitz/requests.git ;cd request 执行 python3 setup.py install即可安装
1.2.2 selenium 的安装
pip install selenium
1.2.3 ChromeDriver驱动的配置
安装ChromeDriver。因为只有安装ChromeDriver,才能驱动Chrome浏览器完成相应的操作,下载浏览器对应版本号的ChromeDriver,可以直接将chromedriver.exe文件拖到Python的Scripts目录下;配置完成后,就可以在命令行下直接执行chromedriver
命令进行测试;弹出如下
Starting ChromeDriver 2.31.488763 (092de99f48a300323ecf8c2a4e2e7cab51de5ba8) on port 9515
Only local connections are allowed.
最新的Chrome浏览器版本已经支持无界面模式了
1.2.4 GeckoDriver安装
同ChromeDriver;配置完成后,就可以在命令行下直接执行geckodriver
命令测试,会弹出相关提示
1.2.5 PhantomJS 最新的Chrome浏览器版本已经支持无界面模式了
1.2.6 aiohttp
Requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。其实,这个过程比较耗费资源。如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度、响应的处理等,那么爬取效率一定会大大提高。
aiohttp就是这样一个提供异步Web服务的库,从Python 3.5版本开始,Python中加入了async
/await
关键字,使得回调的写法更加直观和人性化。aiohttp的异步操作借助于async
/await
关键字的写法变得更加简洁,架构更加清晰
pip3 install aiohttp
官方还推荐安装如下两个库:一个是字符编码检测库cchardet,另一个是加速DNS的解析库aiodns。安装命令如下:
pip3 install cchardet aiodns
1.3 解析库
抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式有多种多样,可以使用正则来提取,但是写起来相对比较烦琐。这里还有许多强大的解析库,如lxml、Beautiful Soup、pyquery等。此外,还提供了非常强大的解析方法,如XPath解析和CSS选择器解析等,利用它们,我们可以高效便捷地从网页中提取有效信息
1.3.1 lxml
lxml是Python的一个解析库,支持html和XML的解析,支持XPath解析方式,而且解析效率非常高
windows 安装 pip3 install lxml
1.3.2 Beautiful Soup
是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式
Beautiful Soup的HTML和XML解析器是依赖于lxml库的,所以在此之前请确保已经成功安装好了lxml库
pip3 install beautifulsoup4
我们虽然安装的是beautifulsoup4这个包,但是在引入的时候却是bs4。这是因为这个包源代码本身的库文件夹名称就是bs4,所以安装完成之后,这个库文件夹就被移入到本机Python3的lib库里,所以识别到的库文件名就叫作bs4。
以上是关于python爬虫环境1的主要内容,如果未能解决你的问题,请参考以下文章
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段