爬虫框架之Scrapy

Posted 互联网it全栈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫框架之Scrapy相关的知识,希望对你有一定的参考价值。

一、简介       

 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。

二、制作 Scrapy 爬虫 一共需要4步

1.新建项目 (scrapy startproject xxx):新建一个新的爬虫项目

2.明确目标 (编写items.py):明确你想要抓取的目标

3.制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页

4.存储内容 (pipelines.py):设计管道存储爬取内容

三、安装scrapy框架

1、安装

python2  -m pip install scrapy

命令行输入scrapy,出现下图,代表安装成功


2、出现以下问题,python3不支持Twisted

Command "D:\python3\python3.exe -u -c "import setuptools, tokenize;__file__='C:\

\Users\\ADMINI~1\\AppData\\Local\\Temp\\pip-build-we6vv2wh\\Twisted\\setup.py';f

=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f

.close();exec(compile(code, __file__, 'exec'))" install --record C:\Users\ADMINI

~1\AppData\Local\Temp\pip-qihjsibw-record\install-record.txt --single-version-ex

ternally-managed --compile" failed with error code 1 in C:\Users\ADMINI~1\AppDat

a\Local\Temp\pip-build-we6vv2wh\Twisted\


3、scrapy 报错 no module named win32api 的解决方案

解决方案:

原因是缺少win32,到 http://sourceforge.net/projects/pywin32/files/

找到对应的版本进行下载,直接安装即可





以上是关于爬虫框架之Scrapy的主要内容,如果未能解决你的问题,请参考以下文章

爬虫之scrapy框架

2017.07.26 Python网络爬虫之Scrapy爬虫框架

python爬虫之scrapy框架

爬虫框架之Scrapy

爬虫框架Scrapy 之 --- scrapy文件

scrapy爬虫框架之理解篇(个人理解)