Scrapy框架基础使用
Posted watchslowly
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy框架基础使用相关的知识,希望对你有一定的参考价值。
1、流程框架
![技术分享图片](https://image.cha138.com/20210823/885d3563b43e4f8eba4f20fa0d429ee2.jpg)
2、在命令行中输入scrapy,会有scrapy常见命令参数
![技术分享图片](https://image.cha138.com/20210823/767c0ebf65a14fb4ac3177ad6011c529.jpg)
![技术分享图片](https://image.cha138.com/20210823/1158209785674810b869077551129416.jpg)
cd到创建好的项目目录中,然后执行scrapy genspider quotes quotes.toscrape.com,创建spider,指定spider名称--->quotes,
指定spider抓取的网址-->quotes.toscrape.com
![技术分享图片](https://image.cha138.com/20210823/37ba4bc4a7814ae2b52bf5c50170dc8b.jpg)
这是一个scrapy框架默认目录结构
scrapy.cfg --> 配置文件,指定settings配置文件路径
quote/ ---> 该项目的python模块,之后您将在此加入代码。
quote/items.py --> 用来保存数据接口
quote/middlewares.py --> 存储中间件
quote/pipelines.py --> 项目中的pipelines文件
quote/settings.py --> 定义一些配置信息
quote/spiders/ --> 放置spider代码的目录
3、在命令行中输入scrapy crawl quotes,会输出一些配置信息
![技术分享图片](https://image.cha138.com/20210823/ecd78ba3226148beb711afb3487dc8cc.jpg)
scrapy还有一个命令行调试模式,直接在命令行执行scrapy shell quotes.toscrape.com
![技术分享图片](https://image.cha138.com/20210823/f54dcdb3f06b46569d88ea059f763fa7.jpg)
extract_first是输入第一个匹配的,是字符串,extract是匹配有多个结果的,输出列表类型
![技术分享图片](https://image.cha138.com/20210823/3dc922afdbb147688e1193aca802c18a.jpg)
执行scrapy crawl quotes -o quotes.json可以保持到本地文件,还支持quotes.jl .csv ,还有支持向ftp传输数据
scrapy crawl -o ftp://user:[email protected]/path/quotes.csv
使用-o是可以指定保持需要的文件格式,这个保持方法scrapy都已经集成好了
4、抓取了一个网址先测试scrapy,具体代码请参考GitHub
https://github.com/watchxu/python/tree/master/ScrapyQuotes
以上是关于Scrapy框架基础使用的主要内容,如果未能解决你的问题,请参考以下文章