Azure 中的 Python Web Scraper

Posted

技术标签:

【中文标题】Azure 中的 Python Web Scraper【英文标题】:Python Web Scraper in Azure 【发布时间】:2021-10-29 09:37:20 【问题描述】:

我几乎没有用 python 编写的网络爬虫来从电子商务网站上爬取数据。 我想在 Azure 上运行这些脚本。 最好的出路是什么?我正在研究 Azure 函数和 Azure Webjobs,因为我希望有一个自动计划来触发我的脚本。 考虑到要抓取的数据量很大,Azure 函数会是一件昂贵的事情吗? 完成这项工作的网络作业的可扩展性如何? 是否有任何其他具有成本效益的方法来完成任务? (我是 Azure 新手)。

【问题讨论】:

请编辑问题以将其限制为具有足够详细信息的特定问题,以确定适当的答案。 【参考方案1】:

您可以尝试使用 Selenium 和 HTTP 触发器进行网页抓取

Consumption 计划和 Premium 计划的 Azure 功能成本,可以参考Azure Functions pricing 和 Reddit/Azure:Azure hosted Web Scraper, good or bad idea?

您可以参考Run Selenium on azure functions、How to create a Selenium web scraper in Azure Functions、Running webscraping Python file with html trigger on Azure和Create a Website Scraper for Azure Functions

【讨论】:

您好,感谢您的指导,但我想知道除了使用 azure 函数之外,还有其他方法可以托管刮板,这样我就可以从读取调度程序表的 webjob 触发脚本以确定计划时间和相应的触发器(要报废的网站数量将继续增加)。考虑到每月有大量数据要废弃,所以我想避免使用 azure 函数,所以它不会那么划算。

以上是关于Azure 中的 Python Web Scraper的主要内容,如果未能解决你的问题,请参考以下文章

azure 应用服务中的 Python ModuleNotFoundError 包

如何将python web应用程序部署到Microsoft Azure

无法在Azure上部署基本的Python 3.6 - web.config?

python学习之Scrapy爬虫框架

Azure web appservice 上的 Python websocket 支持?

Azure 静态 Web 应用 API 中的 TypeORM 迁移