使用 Amazon Web Services 自动安排 Scrapy Crawler

Posted

技术标签:

【中文标题】使用 Amazon Web Services 自动安排 Scrapy Crawler【英文标题】:Automatic Schedule Scrapy Crawler With Amazon Web Services 【发布时间】:2015-06-08 09:12:15 【问题描述】:

我有一个使用 Python 的 Scrapy 的爬虫/蜘蛛,我想使用 Amazon Web Services 安排每日爬取。

我想做的是每天,比如说 01:00 UTC。我希望创建一个 ec2 实例并启动 Scrapy 蜘蛛并运行爬网,完成后我希望终止 ec2 实例。

我不希望 ec2 实例继续运行并增加额外的成本/费用,因为将来我会添加更多的蜘蛛,这可能会导致十几个每天 20 小时什么都不做的被动实例。

我发现了几篇关于在 ec2 中使用 Scrapy 的帖子:

http://seminar.io/2013/03/26/running-scrapy-on-amazon-ec2/ http://bgrva.github.io/blog/2014/04/13/deploy-crawler-to-ec2-with-scrapyd/ http://www.dataisbeautiful.io/installing-scrapy-and-scrapyd-on-amazon-ec2/

但它们似乎都要求您在每次要安排爬网时从本地计算机启动该脚本。它似乎不是自动完成的。我希望我的脚本一年 365 天运行 10 年以上,而且我不想每天晚上睡觉前都这样做。

有人能描述一下这是如何使用 Amazon Web Services 完成的吗?

【问题讨论】:

【参考方案1】:

我认为将crontab 或python-scheduler 与scrapyd 一起使用可以解决问题

【讨论】:

以上是关于使用 Amazon Web Services 自动安排 Scrapy Crawler的主要内容,如果未能解决你的问题,请参考以下文章

使用 Amazon Web Services 保守秘密密钥

帮助了解 Amazon Web Services 定价

text 如何使用Apache,PHP,MySQL设置Amazon Web Services EC2实例

Amazon Web Services 开发人员用户权限

Amazon Web Services 与这些 Azure Web Services 最相似的是啥

使用 Amazon Web Services WSDL 的最佳 python 肥皂堆栈是啥?