框架---scrapy(基本用法)

Posted tingshu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了框架---scrapy(基本用法)相关的知识,希望对你有一定的参考价值。

https://docs.scrapy.org/en/latest/topics/commands.html (官方文档)
1.scrapy startproject hello
此时会生成一个hello工程,同时生成一个srapy.cfg配置文件和一个同名文件夹
技术图片

2.srapy genspider quote quotes.toscrape.com
items.py,定义了保存数据时的数据结构
middlewares.py,处理中间件,可以处理request,response等
pipelines.py,可以
settings.py,配置信息
quote.py,主要代码实现在该spider中
技术图片

3.spider crawl quote (quote为创建的spider,注意不要带.py后缀)
爬取网页并解析,输出结果到屏幕
spider crawl quote -o quotes.json
将结果输出到json文件中
同时还支持其他文件方式的保存,如:quotes.csv,quotes.marshal,quotes.xml

spider crawl quote -o ftp://username:pass@ftp.example.com/path/quotes.csv
4.spider介绍

  • parse方法为请求链接之后默认执行的方法,其中的参数response为请求链接成功之后得到的response
    技术图片
    )
  • items.py
    将parse()方法解析后的结果处理,将结果结构化输出
    技术图片
    如相对item做进一步处理,如剔除某些item或将item保存到数据库,可借助pipelines.py操作
    技术图片
  • pipelines.py
    需在setting.py中指定后才能生效
    技术图片






















以上是关于框架---scrapy(基本用法)的主要内容,如果未能解决你的问题,请参考以下文章

ScrapyScrapy爬虫框架的基本用法

scrapy主动退出爬虫的代码片段(python3)

scrapy按顺序启动多个爬虫代码片段(python3)

Python3中Scrapy爬虫框架Spider的用法

Python3中Scrapy爬虫框架Spider的用法

学会运用爬虫框架 Scrapy