Azure 中的 Python Web Scraper
Posted
技术标签:
【中文标题】Azure 中的 Python Web Scraper【英文标题】:Python Web Scraper in Azure 【发布时间】:2021-10-29 09:37:20 【问题描述】:我几乎没有用 python 编写的网络爬虫来从电子商务网站上爬取数据。 我想在 Azure 上运行这些脚本。 最好的出路是什么?我正在研究 Azure 函数和 Azure Webjobs,因为我希望有一个自动计划来触发我的脚本。 考虑到要抓取的数据量很大,Azure 函数会是一件昂贵的事情吗? 完成这项工作的网络作业的可扩展性如何? 是否有任何其他具有成本效益的方法来完成任务? (我是 Azure 新手)。
【问题讨论】:
请编辑问题以将其限制为具有足够详细信息的特定问题,以确定适当的答案。 【参考方案1】:您可以尝试使用 Selenium 和 HTTP 触发器进行网页抓取。
Consumption 计划和 Premium 计划的 Azure 功能成本,可以参考Azure Functions pricing 和 Reddit/Azure:Azure hosted Web Scraper, good or bad idea?
您可以参考Run Selenium on azure functions、How to create a Selenium web scraper in Azure Functions、Running webscraping Python file with html trigger on Azure和Create a Website Scraper for Azure Functions
【讨论】:
您好,感谢您的指导,但我想知道除了使用 azure 函数之外,还有其他方法可以托管刮板,这样我就可以从读取调度程序表的 webjob 触发脚本以确定计划时间和相应的触发器(要报废的网站数量将继续增加)。考虑到每月有大量数据要废弃,所以我想避免使用 azure 函数,所以它不会那么划算。以上是关于Azure 中的 Python Web Scraper的主要内容,如果未能解决你的问题,请参考以下文章
azure 应用服务中的 Python ModuleNotFoundError 包
如何将python web应用程序部署到Microsoft Azure
无法在Azure上部署基本的Python 3.6 - web.config?