scrapy 框架

Posted pythonzrq

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy 框架相关的知识,希望对你有一定的参考价值。


框架

- 就是一个集成了很多功能且具有很强通用性的一个项目模板。(项目的半成品)
- 学习每一个功能的作用及其用法即可

scrapy 框架

- 高性能的网络请求
- 高性能的数据解析
- 高性能的持久化存储
- 深度爬取
- 全栈爬取
- 分布式
- 中间件
- 请求传参

环境的安装

- mac/linux:pip install scrapy
- window:
    - pip install wheel
    - 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    - 进入下载目录,执行 pip install Twisted?17.1.0?cp35?cp35m?win_amd64.whl   # 飘红下载其他版本
    - pip install pywin32
    - pip install scrapy

 

基本使用

- 新建一个工程:scrapy startproject ProName
    - 目录结构:
        - spiders(包):空包
        - settings:配置文件
            - 不遵从robots
            - UA伪装
            - 日志等级的指定

- cd ProName:进入到工程目录中
- 在spiders(爬虫文件夹)中创建一个爬虫文件
    - scrapy genspider spiderName www.xxx.com
- 编写代码:主要的代码会编写在爬虫文件中
- 执行工程:scrapy crawl 爬虫文件名  #日志信息

新建一个工程:
scrapy startproject 名字
执行工程:scrapy crawl 爬虫文件名 #日志信息
  爬取数据前要在setting中
  ROBOTSTXT_OBEY = True

  改为 Flase
不想显示日志:
  scrapy crawl 爬虫文件名  --nolog
  加上不显示log,但也不会显示报错信息
  
  显示报错信息,需在settings加
  LOG_LEVEL =‘ERROR‘

  将日志写在文件里
  LOG_FILE = ‘./file.txt‘

  UA伪装
  USER_AGENT = ‘firstBlood (+http://www.yourdomain.com)‘



























以上是关于scrapy 框架的主要内容,如果未能解决你的问题,请参考以下文章

Python之Scrapy安装

走近代码之Python--爬虫框架Scrapy

Scrapy框架概述

爬虫框架Scrapy 之 --- scrapy文件

初识scrapy爬虫框架

Python Scrapy框架