python scrapy爬虫框架概念介绍(个人理解总结为一张图)

Posted 程序员灯塔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python scrapy爬虫框架概念介绍(个人理解总结为一张图)相关的知识,希望对你有一定的参考价值。

python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架

 

python和scrapy的安装就不介绍了,资料很多

这里我个人总结一下,能更加快理解scrapy和快速上手一个简单的爬虫程序

 

首先开始一个scrapy项目 用命令: scrapy startproject 项目名

创建出来的文件如下图:红框是我的命令,蓝框是scrapy自动创建的文件

其中各个最常用文件的用处:

mytestproject

--items.py 定义spider.py到pipelines.py中间的数据格式

--pipelines.py 处理爬取到的数据

--settings.py 配置文件,定义有几个pipelines以及他们的优先级,

--spider 爬虫目录

----spider.py 爬取哪些页面, 如何解析爬取的到的数据,整理数据返回给pipelines.py

 

我画了一张简单的图介绍一下各个文件的关系:

python scrapy爬虫框架概念介绍(个人理解总结为一张图)

scrapy框架中的各个文件和数据流转大概就是这样,后面我会详细介绍下我爬取zhihu的各个文件的详细代码.


END

©程序员灯塔

python scrapy爬虫框架概念介绍(个人理解总结为一张图)

关注互联网+大数据相关技术

share-面试进阶+技术干货


以上是关于python scrapy爬虫框架概念介绍(个人理解总结为一张图)的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫教程-30-Scrapy 爬虫框架介绍

python爬虫随笔-scrapy框架——scrapy框架的安装和结构介绍

Python爬虫编程思想(144):爬虫框架Scrapy的基础知识

Python爬虫编程思想(144):爬虫框架Scrapy的基础知识

Python爬虫基础--Scrapy框架的安装及介绍

Scrapy分布式爬虫实战:Scrapy基础知识