有哪些选项可以在 AWS 上为 Pandas 设置自动报告流程?

Posted

技术标签:

【中文标题】有哪些选项可以在 AWS 上为 Pandas 设置自动报告流程?【英文标题】:What options are there to setup automatic reporting processes for Pandas on AWS? 【发布时间】:2020-08-17 08:01:18 【问题描述】:

我目前正在使用弹性 beanstalk 和 apscheduler 每天在其上自动运行 Pandas 报告。数据集越来越大,我已经将内存大小增加了 3 倍。

Elastic Beanstalk 正在运行 Dash - 仪表板应用程序,并每晚运行一次自动化 Pandas 报告。

我尝试设置 AWS Lambda 以在其中运行 Pandas 报告,但我不知道如何使用它。

我正在寻找一种最经济高效的方式来运行我的报告,而无需增加 Beanstalk 上的内存使用量。当我在本地运行它需要 1gb 但在 beanstalk 上运行它时,它使用超过 16gb。

想知道其他人是否有更好的选择或处理他们如何自动运行 Pandas 报告。

【问题讨论】:

为什么你不能让它在 lambda 上工作?这可能是要走的路吗? 数据库在另一个 AWS 登录中,所以我在运行报告时尝试访问它时遇到权限错误。 【参考方案1】:

使用 Pyinstaller 创建一个 .exe 在计算机上的任务计划程序上计划 .exe

至少在我的情况下,比扩展 AWS Beanstalk 资源更便宜,因为 AWS Beanstalk 使用比您的计算机本地计算更多的资源来计算 pandas。

【讨论】:

以上是关于有哪些选项可以在 AWS 上为 Pandas 设置自动报告流程?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 AWS EC2 上为 Rancher 和 Kubernetes 集群做 Auto Scaling?

Apache 不在 443 (aws) 上为 Django 提供服务

需要哪些 AWS 权限才能查看 ECR 增强图像扫描结果

可以将哪些选项传递给 AWS Glue DynamicFrame.toDF()?

如何在 Android (Xamarin) 上为 AWS SNS 启用推送通知

在 AWS 上为 Databricks 和 Snowflake 使用 Spark 连接器