爬虫框架之Scrapy
Posted 互联网it全栈
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫框架之Scrapy相关的知识,希望对你有一定的参考价值。
一、简介
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。
二、制作 Scrapy 爬虫 一共需要4步
1.新建项目 (scrapy startproject xxx):新建一个新的爬虫项目
2.明确目标 (编写items.py):明确你想要抓取的目标
3.制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
4.存储内容 (pipelines.py):设计管道存储爬取内容
三、安装scrapy框架
1、安装
python2 -m pip install scrapy
命令行输入scrapy,出现下图,代表安装成功
2、出现以下问题,python3不支持Twisted
Command "D:\python3\python3.exe -u -c "import setuptools, tokenize;__file__='C:\
\Users\\ADMINI~1\\AppData\\Local\\Temp\\pip-build-we6vv2wh\\Twisted\\setup.py';f
=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f
.close();exec(compile(code, __file__, 'exec'))" install --record C:\Users\ADMINI
~1\AppData\Local\Temp\pip-qihjsibw-record\install-record.txt --single-version-ex
ternally-managed --compile" failed with error code 1 in C:\Users\ADMINI~1\AppDat
a\Local\Temp\pip-build-we6vv2wh\Twisted\
3、scrapy 报错 no module named win32api 的解决方案
解决方案:
原因是缺少win32,到 http://sourceforge.net/projects/pywin32/files/
找到对应的版本进行下载,直接安装即可
以上是关于爬虫框架之Scrapy的主要内容,如果未能解决你的问题,请参考以下文章