爬虫框架Scrapy 之 --- scrapy文件

Posted 2021-10-27 tmmm

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫框架Scrapy 之 --- scrapy文件相关的知识，希望对你有一定的参考价值。

框架简介

核心部分：引擎、下载器、调度器
自定义部分： spider(自己建的爬虫文件)、管道(pipelines.py)

目录结构

    firstSpider
        firstSpider
            spiders           爬虫目录（写代码位置）
                __init__.py
                myspider.py   自己建的爬虫文件,以后的爬虫代码写在这里
            __init__.py
            items.py          定义数据结构地方
            middlewares.py    中间件（了解）
            pipelines.py      管道文件
            settings.py       项目配置文件
        scrapy.cfg

项目处理

项目创建处理，里面是没有爬虫的，我们需要通过指令来创建一个爬虫： cd firstSpider/firstSpider scrapy genspider qiubai “www.qiushibaike.com" 以上指令完事后，就会在firstSpider/firstSpider/spiders里面自动创建一个qiubai.py name: 爬虫的名字，启动的时候根据爬虫的名字启动项目 allowed_domains：允许的域名，就是爬取的时候这个请求要不要发送，如果是该允许域名之下的url，就会发送，如果不是，则过滤掉这个请求，这是一个列表，可以写多个允许的域名 start_urls：爬虫起始url，是一个列表，里面可以写多个，一般只写一个 def parse(self, response): 这个函数非常重要，就是你以后写代码的地方，parse函数名是固定的，当收到下载数据的时候会自动的调用这个方法，该方法第二个参数为response，这是一个响应对象，从该对象中获取html字符串，然后解析之。【注】这个parse函数必须返回一个可迭代对象（3）定制item.py，其实就是您的数据结构，格式非常简单，复制粘贴即可

以上是关于爬虫框架Scrapy 之 --- scrapy文件的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫之Scrapy框架结构

爬虫之scrapy框架

2017.07.26 Python网络爬虫之Scrapy爬虫框架

Python爬虫之Scrapy框架系列——创建并运行你的第一个Scrapy demo项目

Python爬虫进阶之Scrapy框架安装配置