scrapy 框架
Posted pythonzrq
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy 框架相关的知识,希望对你有一定的参考价值。
框架
- 就是一个集成了很多功能且具有很强通用性的一个项目模板。(项目的半成品)
- 学习每一个功能的作用及其用法即可
scrapy 框架
- 高性能的网络请求
- 高性能的数据解析
- 高性能的持久化存储
- 深度爬取
- 全栈爬取
- 分布式
- 中间件
- 请求传参
环境的安装
- mac/linux:pip install scrapy - window: - pip install wheel - 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted - 进入下载目录,执行 pip install Twisted?17.1.0?cp35?cp35m?win_amd64.whl # 飘红下载其他版本 - pip install pywin32 - pip install scrapy
基本使用
- 新建一个工程:scrapy startproject ProName - 目录结构: - spiders(包):空包 - settings:配置文件 - 不遵从robots - UA伪装 - 日志等级的指定 - cd ProName:进入到工程目录中 - 在spiders(爬虫文件夹)中创建一个爬虫文件 - scrapy genspider spiderName www.xxx.com - 编写代码:主要的代码会编写在爬虫文件中 - 执行工程:scrapy crawl 爬虫文件名 #日志信息
新建一个工程:scrapy startproject 名字
执行工程:scrapy crawl 爬虫文件名 #日志信息
爬取数据前要在setting中
ROBOTSTXT_OBEY = True
改为 Flase
不想显示日志:
scrapy crawl 爬虫文件名 --nolog
加上不显示log,但也不会显示报错信息
显示报错信息,需在settings加
LOG_LEVEL =‘ERROR‘
将日志写在文件里
LOG_FILE = ‘./file.txt‘
UA伪装
USER_AGENT = ‘firstBlood (+http://www.yourdomain.com)‘
以上是关于scrapy 框架的主要内容,如果未能解决你的问题,请参考以下文章