配置开发环境
Posted mr-chenshuai
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了配置开发环境相关的知识,希望对你有一定的参考价值。
python的安装
一、通过Anaconda安装,它提供了python的科学计算环境,自带了python以及常用的库
- 官方下载地址:
- hppts://www.continuum.io/downloads
- 清华大学镜像:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
- 使用说明连接:
- https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
二、直接通过安装包安装
- 官方下载地址:
- https://www.python.org/downloads
三、请求库的安装
- 爬虫可以分为几步:抓取页面、分析页面、存储数据
- 在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些python库来实现HTTP请求操作:requests、Selenium、aiohttp等
安装requests:
1、pip安装(推荐)
- pip install requests
2、wheel安装
- wheel是python的一种安装包,后缀为.whl,网速较差时可以下载wheel文件,直接用pip安装,但是先要安装wheel库
- pip install wheel
- 然后到PyPi上下载对应的wheel文件,再从命令行进入wheel文件目录,利用pip安装
- pip install *******.whl
3、源码安装
- 首先找到库的源码地址:requests的地址:https://github.com/kennethreitz/requests
通过Git来下载源码:
- git clone git://github.com/kennethreitz/requests.git
通过curl下载:
- curl -OL https://github.com/kennethreitz/requests/tarball/master
下载完成后,进入目录,执行命令安装:
- cd requests
- python setup.py install
- 命令执行结束即可完成requests的安装
4、验证安装
为了验证库是否已经安装成功,使用命令行模式测试一下,没有出错即表示成功:
- import requests
安装Selenium:
- Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,对于JS渲染的页面,这种方式非常有效
- 推荐pip安装
- pip install selenium
- 验证
- import selenium
安装ChromeDriver:
- 官网:https://sites.google.com/a/chromium.org/chromedriver
- 下载地址:https://chromedriver.storage.googleapis.com/index.html
- 注意选择对应的版本
- 下载完成将其配置到环境变量,windows直接将其放在python的Scripts目录即可,也可以单独配
- 执行命令
程序中测试,开启浏览器空白页,证明配置没有问题
-
安装GeckoDriver
- 对于FireFox同Chrome一样
- 下载地址:https://github.com/mozilla/geckodriver/releaes
安装PhantomJS
- 使用Chrome和firefox进行网页抓取,有个不便之处,由于一直开着浏览器,爬取网页的过程中浏览器可能一直动来动去,目前新版本Chrome支持无界面模式
- 另一种就是安装一个无界面浏览器PhantomJS,此时抓取程序会在后台运行,不会有窗口
- 官网:http://phantomjs.org
- 官方文档:http://phantomjs.org/quick-start.html
- 下载地址:http://phantomjs.org/download.html
- API接口说明:http://phantomjs.org/api/command-line.html
- 下载完成解压,将bin目录的phantomjs.exe文件加到环境变量中,这里直接拷贝到python的Scripts目录
- 验证:执行后没有浏览器弹窗,输出百度URL
安装aiohttp
- requests库是一个阻塞式的http请求库,我们发出请求,程序会一直等待服务器响应,直到得到响应才会进行下一步,其实这个过程比较耗时,如果在等待过程中做一些其他的事情,那么爬取的效率就会大大提高
- aiohttp就是一个提供异步web服务的库,从python3.5加入了async、await关键字,使得回调写法更直观和人性化
- aiohttp的异步操作借助于async、await关键字的写法变得更简洁,架构更清晰
- 使用异步请求库进行数据抓取,大大提高效率
相关连接
- 官方文档:http://aiohttp.readthedocs.io/en/stable
- GitHun:https://github.com/aio-libs/aiohttp
- PyPi:https://pypi.python.org/pypi/aiohttp
pip安装
- pip install aiohttp
- 推荐安装另外两个库:字符编码检测库cchardet、加速DNS的解析库aiodns
- pip install cchardet aiodns
- 测试:import aiohttp
-
解析库的安装
抓取网页代码后,就要提取信息,可以使用正则来提取,但是相对繁琐
强大的解析库:lxml、Beautiful Soup、pyquery等
强大的解析方法:Xpath解析、CSS解析器等
安装lxml
- 它是python的一个解析库,支持HTML和XML解析,支持Xpath解析方式,效率非常高
- pip安装,无报错即成功
- pip install lxml
- 验证:imprt lxml
-
安装Beautiful Soup
- pip install beautifulsoup4
- 验证:
安装pyquery
- pip install pyquery
- 验证:import pyquery
以上是关于配置开发环境的主要内容,如果未能解决你的问题,请参考以下文章