scrapy框架的初始

Posted youhongliang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy框架的初始相关的知识,希望对你有一定的参考价值。

Scrapy框架(爬虫框架)

  • 什么是Scrapy?

    • Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化存储等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
  • 安装scrapy

  • scrapy的使用方法:

    • 创建项目: scrapy startproject xxx
    • 创建爬虫文件: scrapy genspider first www.xxx.com
    • 执行爬虫文件:scrapy crawl first
    • 执行爬虫文件不打印日志: scrapy crawl budejie --nolog
    • 执行爬虫文件并持久化存储到csv文件中: scrapy crawl budejie -o budejie.csv
  • 管道持久化存储

    • 文件存储: 可以实现任意文件类型的存储
    • mysql存储:
      • 创建连接
      • 创建游标
      • 使用事务
      • 关闭游标和连接
    • redis存储
      • 创建连接
      • 存储的数据需要进行json序列化
      • 关闭连接

以上是关于scrapy框架的初始的主要内容,如果未能解决你的问题,请参考以下文章

scrapy初始和简单应用

scrapy框架spider

码以致用01 - Scrapy 爬虫框架简介

爬虫框架之Scrapy

爬虫框架Scrapy之Spider

scrapy框架系列 Spider类