python爬虫篇之 Scrapy框架安装

Posted 2020-10-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫篇之 Scrapy框架安装相关的知识，希望对你有一定的参考价值。

爬虫 Scrapy框架，不只是一条命令： pip3 install scrapy，所能完成的。 (所在环境 Python3)

Scrapy依赖的库比较多，至少需要依赖库有Twisted ，lxml ，pyOpenSSL 。而在不同平台环境又各不相同，所以在安装之前最好确保把一些基本库安装好。

Windows平台：

安装lxml

最好的安装方式是通过wheel文件来安装，http://www.lfd.uci.edu/~gohlke/pythonlibs/，从该网站找到lxml的相关文件。假如是Python3.5版本，WIndows 64位系统，那就找到lxml?3.7.2?cp35?cp35m?win_amd64.whl 这个文件并下载，然后通过pip安装。

下载之后，运行如下命令安装：

先命令安装 wheel：( 已有更好)

pip3 install wheel

再执行：

pip3 install lxml?3.7.2?cp35?cp35m?win_amd64.whl

安装还可找到 lxml?3.7.2?cp35?cp35m?win_amd64.whl 下载文件：

1.在空白处，shift + 右击  
2.在此处打开命令窗口 
3.输入 pip3 install lxml?3.7.2?cp35?cp35m?win_amd64.whl (或者 输入 pip3 install lx， 来个 Tab键，会自动补全)

安装zope.interface

到官方网站https://pypi.python.org/pypi/zope.interface#downloads下载对应版本的wheel文件，然后pip安装。比如Python 3.5版本，Windows 64位系统，就下载zope.interface-4.3.3-cp35-cp35m-win_amd64.whl。

然后安装wheel文件即可，命令如下：

pip3 install zope.interface-4.3.3-cp35-cp35m-win_amd64.whl

安装pyOpenSSL

官方网站下载wheel文件，https://pypi.python.org/pypi/pyOpenSSL#downloads，如当前最新版本名称是pyOpenSSL-16.2.0-py2.py3-none-any.whl，下载后安装即可。

pip3 install pyOpenSSL-16.2.0-py2.py3-none-any.whl

安装Twisted

同理，http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载wheel文件，利用pip安装即可。
如Python 3.5版本，Windows 64位系统，下载
Twisted?17.1.0?cp35?cp35m?win_amd64.whl，然后pip安装。

pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl

安装pywin32

从官方网站 https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/ 下载对应版本的安装包安装即可。

下载的是：pywin32-220.win-amd64-py3.6.exe，注意：文件格式是：.exe

1.双击文件
2.一直往下（注意：会有 选择安装路径：D:\\python3\\）

安装Scrapy

最后安装Scrapy即可，命令如下：

pip3 install scrapy

有时，在执行安装Scripy 指令，会出现报错：

Collecting scrapy

Retrying (Retry(total=4, connect=None, read=None, redirect=None)) after connec
tion broken by ‘ReadTimeoutError("HTTPSConnectionPool(host=‘pypi.python.org‘, po
rt=443): Read timed out. (read timeout=15)",)‘: /simple/qrcode/
  Retrying (Retry(total=3, connect=None, read=None, redirect=None)) after connec
tion broken by ‘ReadTimeoutError("HTTPSConnectionPool(host=‘pypi.python.org‘, po
rt=443): Read timed out. (read timeout=15)",)‘: /simple/qrcode/

技术分享

解决方法：

下载超时了，
只有修改pip源了。

方法一：
临时使用：pip install pythonModuleName -i https://pypi.douban.com/simple

方法二：
修改默认的软件源：
修改/etc/pip.conf 文件，即可为所有用户配置．
修改~/.pip/pip.conf为当前用户配置．
windows下pip配置文件为 C:\\Users\\xx\\pip\\pip.ini ，没有就新建．

[global]
index-url = http://pypi.douban.com/simple
trusted-host = pypi.douban.com

只用了方法一：

技术分享

以上是关于python爬虫篇之 Scrapy框架安装的主要内容，如果未能解决你的问题，请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

Python之Scrapy安装

Python爬虫框架Scrapy安装使用步骤

python爬虫随笔-scrapy框架——scrapy框架的安装和结构介绍

python的scrapy框架爬虫基础

Python爬虫 ---scrapy框架初探及实战