Scrapy命令行工具简介

Posted 2020-11-21 luo630

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Scrapy命令行工具简介相关的知识，希望对你有一定的参考价值。

Windows 10家庭中文版，Python 3.6.4，virtualenv 16.0.0，Scrapy 1.5.0，

在最初使用Scrapy时，使用编辑器或IDE手动编写模块来创建爬虫（Spider）程序，然后使用scrapy crawl命令执行Spider。

这种方式很初级、繁琐，不适合更大型的项目。

很好的是，Scrapy提供了命令行工具（Command line tool），通过这套工具，开发者可以轻松建立 Scrapy项目，而不仅仅是一个一个的Spider程序。

初见Scrapy命令行工具

先说几个使用过的Scrapy命令行工具中的命令：

-scrapy startproject

创建一个新的爬虫项目，语法如下：

scrapy startproject <project_name> [project_dir]

-scrapy genspider

在当前目录下创建一个爬虫程序（重名了会怎样？待试验），语法如下：

scrapy genspider [-t template] <name> <domain>

其中，template可以为basic、crawl、csvfeed、xmlfeed，默认是basic，其它三个尚未用过。

爬虫程序的name需要是一个合法的Python标识符（说法不太准确，需要更正），domain是需要爬取的网址的域名，会出现在爬虫的allowed_domains属性中，还会影响到爬虫的start_urls属性。

注意：domain中不能有http://、https://，仅仅是域名，不包含协议部分（犯过错误）。

疑问：domain是否可以设置多个呢？（需验证）

下面是第一次创建Spider时犯错了：

技术分享图片

下图的start_urls中以两个http://开头！

技术分享图片

执行爬虫程序时发生DNSLookupError！

技术分享图片

注意，默认是给domain添加http://，那么，https网站还得手动更改？

更正代码后——删除allowed_domains和start_urls中多余的http://，爬虫程序可以正常执行。

-scrapy runspider

在没有使用scrapy startproject之前，自己写一个爬虫程序——没有项目的概念，此时，使用runspider命令来执行，因此，此命令时全局的（Global）。

语法如下：参数是 Python文件

scrapy runspider <spider_file.py>

-scrapy crawl

在创建的Scrapy项目中执行爬虫程序，依托于项目，此命令并非全局的。

语法如下：参数是爬虫项目内的爬虫的 name，即在genspider时使用的name。

scrapy crawl <spider>

之前还会把runspider和crawl搞混，现在不会了。

----

上面就是几个自己常用的命令，本文后面会对其它命令进行简单介绍。

Scrapy的命令行工具官文

Scrapy命令行工具运行机制

Scrapy命令行工具运行时，会寻找一个配置文件，此文件命名为scrapy.cfg。在使用startproject建立爬虫项目时，此文件出现在爬虫项目的根目录下。

不过，scrapy.cfg不仅仅会出现在这里，见官文的截图（不再赘述）：

技术分享图片

对于1，但孤的Windows系统没有c:scrapy目录，更没有下面的scrapy.cfg了，需要自己建立吗？

对于2，也没有在用户根目下发现.scrapy.cfg文件；

看来，只有3——Scrapy项目的根目录下的scrapy.cfg是有效的了。

除了配置文件外，Scrapy命令行工具还可以下面三个环境变量配合使用：

-SCRAPY_SETTINGS_MODULE

-SCRAPY_PROJECT

-SCRAPY_PYTHON_SHELL

默认是打开标准的Python控制台（配置值为python，），可以将其配置为ipython（Scrapy推荐）、bpython，代表其它两个Python版本。

scrapy项目的默认结果如下（截图自官文的Tutorial文档）：

技术分享图片

其中，scrapy.cfg文件的内容格式如下：

[settings]
default = myproject.settings

上面的myproject表示项目名称，在上图的tutorial项目中，其为tutorial。这句表示，配置默认是tutorial目录下的settings.py文件的配置（请参考官文Settings）。

scrapy命令行工具用法

-直接输入scrapy 或输入scrapy -h，显示scrapy的用法信息；

-输入scrayp <command> -h，显示子命令的用法信息；

-命令分为两种：项目命令（Project-specific commands）、全局命令（Global commands），前者只能在Scrapy项目中使用（有效），后者无论在哪里使用都有效。需要注意的是，某些命令在项目外执行和项目里面执行时是有区别的，比如，全局命令fetch，（省略若干字，还没弄清楚，请参考官网先）。

-全局命令如下

startproject, genspider, settings, runspider, shell, fetch, view, version

-项目命令如下

crawl, check, list, edit, parse, bench

定制项目命令

看清楚，是定制项目命令！

全局命令就固定那几个了，但开发者可以定制项目命令，可以很久很久都不会用到吧，不再深入介绍。

后记

还有不少命令的用法不是很熟悉，还需要更加多地实践和理解；

-版本1.0:2018-06-30 22:56

写完后感觉好多命令不是很熟悉啊！还得多练习。后面更熟练了，再进行补充。

目前认为两个命令最重要：shell、check。

其实，这篇文章写的有些乱，因为自己不是精通Scrapy命令行工具吧！日后真的需要完善才行！

当然，孤以为文中还是提供了一些初级的、有价值的信息的。

以上是关于Scrapy命令行工具简介的主要内容，如果未能解决你的问题，请参考以下文章

Scrapy命令行工具简介

初见Scrapy命令行工具

Scrapy命令行工具运行机制

scrapy命令行工具用法

更多Scrapy命令介绍

定制项目命令

后记