调度 scrapy 命令 scrapy crawl

Posted

技术标签:

【中文标题】调度 scrapy 命令 scrapy crawl【英文标题】:Schedule scrapy command scrapy crawl 【发布时间】:2014-05-21 00:36:27 【问题描述】:

我已经构建了一个爬虫来爬取和提取与固定正则表达式匹配的链接。现在我想在 Windows 任务调度程序中调度任务,以便它使用命令行提示符scrapy crawl crawlername 执行爬虫。有什么有用的帮助吗?

【问题讨论】:

这是一个 Windows 问题,而不是一个乱七八糟的编码问题,对吧?一个可能是超级用户? 【参考方案1】:

你可以用内容创建一个bat文件:

cd path_to_scrapy_project
scrapy crawl crawlername

然后使用 Windows 任务计划程序计划此脚本。

【讨论】:

【参考方案2】:

你可以创建一个像run.py这样的文件

并把你的脚本像那个带有多个蜘蛛的例子:

import os
import logging

def crawl():
    os.system('scrapy crawl spider1')
    os.system('scrapy crawl spider2')
    os.system('scrapy crawl spider3')

schedule.every(5).minutes.do(crawl)
while True:
    schedule.run_pending()```

【讨论】:

以上是关于调度 scrapy 命令 scrapy crawl的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫scrapy入门6:Scrapy中runspider和crawl的区别

python爬虫scrapy入门6:Scrapy中runspider和crawl的区别

scrapy框架之crawl问题解决

Scrapy错误-no active project Unknown command: crawl

爬虫日记(83):Scrapy的CrawlerProcess类

scrapy从命令行传值