框架---scrapy（基本用法）

Posted 2020-12-21 tingshu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了框架---scrapy（基本用法）相关的知识，希望对你有一定的参考价值。

https://docs.scrapy.org/en/latest/topics/commands.html （官方文档）
1.scrapy startproject hello
此时会生成一个hello工程，同时生成一个srapy.cfg配置文件和一个同名文件夹
技术图片

2.srapy genspider quote quotes.toscrape.com
items.py，定义了保存数据时的数据结构
middlewares.py，处理中间件，可以处理request，response等
pipelines.py，可以
settings.py，配置信息
quote.py，主要代码实现在该spider中
技术图片

3.spider crawl quote （quote为创建的spider，注意不要带.py后缀）
爬取网页并解析，输出结果到屏幕
spider crawl quote -o quotes.json
将结果输出到json文件中
同时还支持其他文件方式的保存，如：quotes.csv,quotes.marshal,quotes.xml

spider crawl quote -o ftp://username:pass@ftp.example.com/path/quotes.csv
4.spider介绍

parse方法为请求链接之后默认执行的方法，其中的参数response为请求链接成功之后得到的response

)
items.py
将parse()方法解析后的结果处理，将结果结构化输出

如相对item做进一步处理，如剔除某些item或将item保存到数据库，可借助pipelines.py操作
pipelines.py
需在setting.py中指定后才能生效

以上是关于框架---scrapy（基本用法）的主要内容，如果未能解决你的问题，请参考以下文章

ScrapyScrapy爬虫框架的基本用法

scrapy主动退出爬虫的代码片段(python3)

scrapy按顺序启动多个爬虫代码片段(python3)

Python3中Scrapy爬虫框架Spider的用法

学会运用爬虫框架 Scrapy