scrapy框架的初始

Posted 2021-02-28 youhongliang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy框架的初始相关的知识，希望对你有一定的参考价值。

Scrapy框架(爬虫框架)

什么是Scrapy？
- Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化存储等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。
安装scrapy
- 1. pip3 install wheel
- 1. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
- 1. 进入下载目录，执行 pip3 install Twisted-19.2.1-cp36-cp36m-win_amd64.whl
- 1. pip3 install pywin32
- 1. pip3 install scrapy
scrapy的使用方法:
- 创建项目: scrapy startproject xxx
- 创建爬虫文件: scrapy genspider first www.xxx.com
- 执行爬虫文件：scrapy crawl first
- 执行爬虫文件不打印日志: scrapy crawl budejie --nolog
- 执行爬虫文件并持久化存储到csv文件中: scrapy crawl budejie -o budejie.csv
管道持久化存储
- 文件存储: 可以实现任意文件类型的存储
- mysql存储:
  - 创建连接
  - 创建游标
  - 使用事务
  - 关闭游标和连接
- redis存储
  - 创建连接
  - 存储的数据需要进行json序列化
  - 关闭连接

以上是关于scrapy框架的初始的主要内容，如果未能解决你的问题，请参考以下文章