scrapy框架 简易整理
Posted l-jie-n
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy框架 简易整理相关的知识,希望对你有一定的参考价值。
- scrapy框架
介绍:大而全的爬虫组件。
安装:
- Win:
下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
pip3 install wheel
pip install Twisted?18.4.0?cp36?cp36m?win_amd64.whl
pip3 install pywin32
pip3 install scrapy
- Linux:
pip3 install scrapy
使用:
Django:
# 创建project
django-admin startproject mysite
cd mysite
# 创建app
python manage.py startapp app01
python manage.py startapp app02
# 启动项目
python manage.runserver
Scrapy:
# 创建project
scrapy startproject xdb
cd xdb
# 创建爬虫
scrapy genspider chouti chouti.com
scrapy genspider cnblogs cnblogs.com
# 启动爬虫
scrapy crawl chouti
1. 创建project
scrapy startproject 项目名称
项目名称
项目名称/
- spiders # 爬虫文件
- chouti.py
- cnblgos.py
....
- items.py # 持久化
- pipelines # 持久化
- middlewares.py # 中间件
- settings.py # 配置文件(爬虫)
scrapy.cfg # 配置文件(部署)
2. 创建爬虫
cd 项目名称
scrapy genspider chouti chouti.com
scrapy genspider cnblgos cnblgos.com
3. 启动爬虫
scrapy crawl chouti
scrapy crawl chouti --nolog
总结:
- html解析:xpath
- 再次发起请求:yield Request对象
以上是关于scrapy框架 简易整理的主要内容,如果未能解决你的问题,请参考以下文章
python 爬虫框架scrapy学习记录和整理 python爬虫框架scrapy入门文档学习