有哪些选项可以在 AWS 上为 Pandas 设置自动报告流程?
Posted
技术标签:
【中文标题】有哪些选项可以在 AWS 上为 Pandas 设置自动报告流程?【英文标题】:What options are there to setup automatic reporting processes for Pandas on AWS? 【发布时间】:2020-08-17 08:01:18 【问题描述】:我目前正在使用弹性 beanstalk 和 apscheduler 每天在其上自动运行 Pandas 报告。数据集越来越大,我已经将内存大小增加了 3 倍。
Elastic Beanstalk 正在运行 Dash - 仪表板应用程序,并每晚运行一次自动化 Pandas 报告。
我尝试设置 AWS Lambda 以在其中运行 Pandas 报告,但我不知道如何使用它。
我正在寻找一种最经济高效的方式来运行我的报告,而无需增加 Beanstalk 上的内存使用量。当我在本地运行它需要 1gb 但在 beanstalk 上运行它时,它使用超过 16gb。
想知道其他人是否有更好的选择或处理他们如何自动运行 Pandas 报告。
【问题讨论】:
为什么你不能让它在 lambda 上工作?这可能是要走的路吗? 数据库在另一个 AWS 登录中,所以我在运行报告时尝试访问它时遇到权限错误。 【参考方案1】:使用 Pyinstaller 创建一个 .exe 在计算机上的任务计划程序上计划 .exe
至少在我的情况下,比扩展 AWS Beanstalk 资源更便宜,因为 AWS Beanstalk 使用比您的计算机本地计算更多的资源来计算 pandas。
【讨论】:
以上是关于有哪些选项可以在 AWS 上为 Pandas 设置自动报告流程?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 AWS EC2 上为 Rancher 和 Kubernetes 集群做 Auto Scaling?
Apache 不在 443 (aws) 上为 Django 提供服务
可以将哪些选项传递给 AWS Glue DynamicFrame.toDF()?