amazon lambda 适合网页抓取吗？

Posted 2023-03-28

技术标签:

【中文标题】amazon lambda 适合网页抓取吗？【英文标题】：Is amazon lambda suitable for web scraping? 【发布时间】：2015-05-03 17:32:56 【问题描述】：

如果我创建一个函数来获取网页。它会在每次执行时在不同的 IP 上执行它，这样我的抓取请求就不会被阻止吗？

【问题讨论】：

从被抓取网站的角度来看，您所做的是恶意的。抓取可能会对 Web 服务器造成破坏性和代价高昂的负载，而您遇到的 IP 过滤就是一种防御措施。如果你成功地绕过了那个防御，你会给别人带来很多钱和恶化。从用户的角度来看，有时抓取是必要的，因为网站未能提供一致的 API 或通知系统。并非所有爬虫都是恶意的 【参考方案1】：

我会使用这个 AWS 管道：

在左侧的源代码中，您将拥有一个带有JAUNT 的 EC2 实例，然后它将 URLS 或 html 页面馈送到 Kinesis Stream。 Lambda 将解析您的 HTML，并通过 Firehose 将所有内容放入 S3 或 Redshift。 JAUNT 可以通过具有旋转 IP 的标准 WebProxy 服务运行。

【讨论】：

【参考方案2】：

是的，lambda 默认使用随机 IP 执行。您可以使用事件桥之类的东西来触发它，这样您就可以安排每小时或类似的时间执行脚本。其他人可能会推荐使用 API Gateway，但是，公开可供任何人触发的 API 端点是非常不安全的。因此，您必须编写额外的逻辑来通过硬编码标头或说 oauth 来保护它。

【讨论】：

【参考方案3】：

AWS Lambda 没有提到的固定 IP 源 here 但是，我想这会在它冷却下来时发生，而不是在同一次调用期间。

【讨论】：

【参考方案4】：

当文件被放置在 S3 中，或者数据被添加到 Kinesis 或 DynamoDB 时，Lambda 会被触发。这通常与网络爬虫的需求相反，尽管像 S3 这样的东西肯定可以作为队列/作业运行器执行。

抓取不同的 IP？当然 lambda 部署在许多机器上，尽管这实际上对您没有帮助，因为您无法控制机器或它们的 IP。

【讨论】：

不控制 IP 确实有帮助，这正是您想要的——每次调用抓取作业时都有一个新 IP，对吗？此外，s3、kinesis 和 dynamoDb 并不是运行 lambda 函数的唯一选项。您可以使用 sdk 或 cli 按需调用 lambda 函数。您可能有一个程序从 SNS/SQS 读取“抓取作业”，然后调用 lambda 函数来执行抓取。不控制 IP 地址意味着您最终可能会收到来自同一 IP 的所有查询，或者随机来自被阻止的 IP，并且您无法从池中删除这些查询。 @nackjicholson 啊，我明白了。绕过屏幕抓取禁令可能不是亚马逊试图用 Lambda 解决的问题:) API 网关可以触发 AWS Lambda。您也可以定期自动触发（预定事件）docs.aws.amazon.com/lambda/latest/dg/with-scheduled-events.html 此外，为了获得简单的 lambda 体验，请查看 Serverless serverless.com

以上是关于amazon lambda 适合网页抓取吗？的主要内容，如果未能解决你的问题，请参考以下文章

c#抓取动态网页中的数据

java爬虫怎么抓取登陆后的网页数据

为啥我用Burpsuit抓取虚拟机的包抓不到？

Python十分适合用来开发网页爬虫

刚学python，抓中文网页遇到编码的问题，怎么转换也不行

使用PHP的cURL库进行网页抓取