爬虫框架 Scrapy 使用
Posted leafchen
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫框架 Scrapy 使用相关的知识,希望对你有一定的参考价值。
一、创建爬虫项目
1. 创建爬虫项目
Scrapy startproject myproject (爬虫项目名)
2. myproject项目文件夹中包含:
1. 同名(myproject)文件夹
2. cfg配置文件 (指定项目文件--myproject,指定项目文件的配置文件myspider文件下的setting文件)
3. 进入到myproject文件夹中,包含:
1. spiders文件夹(爬虫文件存放位置)
2. setting文件及其它Scrapy框架的模块文件
4. 创建爬虫
Scrapy genspider baidu (爬虫文件名) baidu.com (要爬取的域名)
说明:执行命令后,会在spiders文件夹中生成对应的爬虫文件,及代码。
# -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = ‘baidu‘ # 允许爬取的域名,可以排除掉页面中其它域名的内容 allowed_domains = [‘www.baidu.com‘] # 起始url start_urls = [‘http://www.baidu.com/‘] # 获取响应数据的接口 def parse(self, response): pass
二、配置爬虫项目
1. 配置setting文件
第一步:初步修改setting文件
# 请求头user-agent设置 USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/77.0‘ # 是否遵守网站的robots协议 ROBOTSTXT_OBEY = False # 下载延迟(发送请求的间隔) DOWNLOAD_DELAY = 3
第二步:完善爬虫文件代码
以上是关于爬虫框架 Scrapy 使用的主要内容,如果未能解决你的问题,请参考以下文章