Scrapy 创建项目 (未完)

Posted snakejia

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy 创建项目 (未完)相关的知识,希望对你有一定的参考价值。

1. 安装python3

2. python虚拟环境搭建

https://www.jianshu.com/p/ad2d8ee4a679

3.Python3.6 下 Scrapy 安装

http://blog.csdn.net/yctjin/article/details/70658811

4.Scrapy创建项目

workon py3env

cd g:/pyproject

scrapy startproject jd
在PyCharm中打开项目

技术分享图片

5.Scrapy项目结构说明

scrapy.cfg
项目的配置文件,带有这个文件的那个目录作为scrapy项目的根目录
items.py
定义你所要抓取的字段
pipelines.py
管道文件,当spider抓取到内容(item)以后,会被送到这里,这些信息(item)在这里会被清洗,去重,保存到文件或者数据库。
middlewares.py
中间件,主要是对功能的拓展,你可以添加一些自定义的功能,比如添加随机user-agent, 添加proxy。
settings.py
设置文件,用来设置爬虫的默认信息,相关功能开启与否,比如是否遵循robots协议,设置默认的headers,设置文件的路径,中间件的执行顺序等等。
spiders/
在这个文件夹下面,编写你自定义的spider。

6.编写爬虫

在项目中的spiders文件夹下面创建一个文件,命名为baidu.py我们将在这个文件里面编写我们的爬虫。

以上是关于Scrapy 创建项目 (未完)的主要内容,如果未能解决你的问题,请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy突然创建多个项目

创建第一个Scrapy项目

利用pyCharm创建scrapy项目

Python-Scrapy创建第一个项目