使用 Amazon Web Services 自动安排 Scrapy Crawler
Posted
技术标签:
【中文标题】使用 Amazon Web Services 自动安排 Scrapy Crawler【英文标题】:Automatic Schedule Scrapy Crawler With Amazon Web Services 【发布时间】:2015-06-08 09:12:15 【问题描述】:我有一个使用 Python 的 Scrapy 的爬虫/蜘蛛,我想使用 Amazon Web Services 安排每日爬取。
我想做的是每天,比如说 01:00 UTC。我希望创建一个 ec2 实例并启动 Scrapy 蜘蛛并运行爬网,完成后我希望终止 ec2 实例。
我不希望 ec2 实例继续运行并增加额外的成本/费用,因为将来我会添加更多的蜘蛛,这可能会导致十几个每天 20 小时什么都不做的被动实例。
我发现了几篇关于在 ec2 中使用 Scrapy 的帖子:
http://seminar.io/2013/03/26/running-scrapy-on-amazon-ec2/ http://bgrva.github.io/blog/2014/04/13/deploy-crawler-to-ec2-with-scrapyd/ http://www.dataisbeautiful.io/installing-scrapy-and-scrapyd-on-amazon-ec2/但它们似乎都要求您在每次要安排爬网时从本地计算机启动该脚本。它似乎不是自动完成的。我希望我的脚本一年 365 天运行 10 年以上,而且我不想每天晚上睡觉前都这样做。
有人能描述一下这是如何使用 Amazon Web Services 完成的吗?
【问题讨论】:
【参考方案1】:我认为将crontab 或python-scheduler 与scrapyd 一起使用可以解决问题
【讨论】:
以上是关于使用 Amazon Web Services 自动安排 Scrapy Crawler的主要内容,如果未能解决你的问题,请参考以下文章
text 如何使用Apache,PHP,MySQL设置Amazon Web Services EC2实例