scrapy 框架

Posted 2021-03-26 pythonzrq

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy 框架相关的知识，希望对你有一定的参考价值。

框架

- 就是一个集成了很多功能且具有很强通用性的一个项目模板。（项目的半成品）
- 学习每一个功能的作用及其用法即可

scrapy 框架

- 高性能的网络请求
- 高性能的数据解析
- 高性能的持久化存储
- 深度爬取
- 全栈爬取
- 分布式
- 中间件
- 请求传参

环境的安装

- mac/linux：pip install scrapy
- window:
    - pip install wheel
    - 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    - 进入下载目录，执行 pip install Twisted?17.1.0?cp35?cp35m?win_amd64.whl   # 飘红下载其他版本
    - pip install pywin32
    - pip install scrapy

基本使用

- 新建一个工程：scrapy startproject ProName
    - 目录结构：
        - spiders（包）：空包
        - settings：配置文件
            - 不遵从robots
            - UA伪装
            - 日志等级的指定

- cd ProName：进入到工程目录中
- 在spiders（爬虫文件夹）中创建一个爬虫文件
    - scrapy genspider spiderName www.xxx.com
- 编写代码：主要的代码会编写在爬虫文件中
- 执行工程：scrapy crawl 爬虫文件名  #日志信息


新建一个工程：scrapy startproject 名字
执行工程：scrapy crawl 爬虫文件名  #日志信息
　　爬取数据前要在setting中

　　ROBOTSTXT_OBEY = True

　　改为 Flase
不想显示日志：

　　scrapy crawl 爬虫文件名  --nolog
　　加上不显示log，但也不会显示报错信息
　　
　　显示报错信息，需在settings加
　　LOG_LEVEL =‘ERROR‘

　　将日志写在文件里
　　LOG_FILE = ‘./file.txt‘

　　UA伪装
　　USER_AGENT = ‘firstBlood (+http://www.yourdomain.com)‘

以上是关于scrapy 框架的主要内容，如果未能解决你的问题，请参考以下文章