并行化 AWS Lambda 的最佳方式

Posted

技术标签:

【中文标题】并行化 AWS Lambda 的最佳方式【英文标题】:Best way to parallelize AWS Lambda 【发布时间】:2016-04-03 21:40:46 【问题描述】:

我在 S3 上上传了一个大文件,对于文件中的每一行,我需要进行长时间运行的 rest API 调用。我试图找出最好的方式来分解工作。我目前的流程想法是

Lambda(逐行分解文件)-> SNS(每行通知)-> Lambda(每行/通知分开)

这似乎是一个常见的用例,但我找不到很多对它的引用,我错过了什么吗?有没有更好的选择来分解我的工作并在合理的时间内完成它?

【问题讨论】:

为什么不跳过中间步骤,直接从第一个函数调用第二个 lambda 函数呢?有点像这样:***.com/questions/31714788/… 您的long running rest API call 多久了? 【参考方案1】:

最佳方式将是主观的。您当前使用的方法Lambda->SNS->Lambda 是一种可能的方法。正如 JohnAllen 指出的那样,您可以简单地使用 Lambda->Lambda

您的场景让我想起了this project,它有一个 Lambda 函数将项目添加到 Kinesis 流,然后触发许多并行 Lambda 函数。

如果您要生成大量 Lambda 任务,我认为 Lambda->Kinesis->Lambda 可能比 Lambda->SNS->Lambda 更适合您的用例。我会担心 SNS 实现会超出并发 Lambda 函数的最大数量,而 Kinesis 实现会将它们排队并优雅地处理。

【讨论】:

以上是关于并行化 AWS Lambda 的最佳方式的主要内容,如果未能解决你的问题,请参考以下文章

在 Scala 中设计和并行化 Spark 应用程序的最佳方法 [关闭]

如何实现并行,以这样的方式延迟,当输出低于阈值时并行化 for 循环停止?

Parallel并行化编程

Java 单元测试 - 并行化 + 多线程 + 无限次

Bash脚本实现批量作业并行化

在 OpenMP 中并行化嵌套循环并使用更多线程执行内部循环