scrapy工具创建爬虫工程
Posted jeshy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy工具创建爬虫工程相关的知识,希望对你有一定的参考价值。
1、scrapy创建爬虫工程:scrapy startproject scrape_project_name
>scrapy startproject books_scrape
New Scrapy project ‘books_scrape‘, using template directory ‘s:\\users\\jiangshan\\anaconda3\\lib\\site-packages\\scrapy\\templates\\project‘, created in:
D:\Workspace\ScrapyTest\books_scrape
You can start your first spider with:
cd books_scrape
scrapy genspider example example.com
2、>cd books_scrape
3、查看目录结构:>tree /F
>tree /F
卷 DATA1 的文件夹 PATH 列表
卷序列号为 3A2E-EB05
D:.
│ scrapy.cfg
│
└─books_scrape
│ items.py
│ middlewares.py
│ pipelines.py
│ settings.py
│ __init__.py
│
├─spiders
│ │ __init__.py
│ │
│ └─__pycache__
└─__pycache__
4、使用scrapy genspider<SPIDER_NAME> <DOMAIN> 命令生成(根据模板)和创建Spider文件以及Spider类,该命令的两个参数分别是Spider的名字和所要爬取的域(网站)。
> scrapy genspider books books.toscrape.com
5、查看目录结构:(标蓝色先不管)
>tree /F
D:.
│ scrapy.cfg
│
└─books_scrape
│ items.py
│ middlewares.py
│ pipelines.py
│ run.py
│ settings.py
│ __init__.py
│
├─.idea
│ books_scrape.iml
│ deployment.xml
│ misc.xml
│ modules.xml
│ remote-mappings.xml
│ workspace.xml
│
├─spiders
│ │ books.py
│ │ __init__.py
│ │
│ └─__pycache__
│ __init__.cpython-37.pyc
│
└─__pycache__
settings.cpython-37.pyc
__init__.cpython-37.pyc
6、打开pycharm软件,打开创建的books_scrape工程,以配置文件scrapy.cfg为基准
7、在和├─spiders同级目录新建,run.py文件,写入:
from scrapy import cmdline
cmdline.execute(‘scrapy crawl books‘.split())
以上是关于scrapy工具创建爬虫工程的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序
Python爬虫编程思想(146):创建和使用Scrapy工程