AWS EMR v5.32.0 引导 Numpy 问题

Posted

技术标签:

【中文标题】AWS EMR v5.32.0 引导 Numpy 问题【英文标题】:AWS EMR v5.32.0 Bootstrap Numpy Issue 【发布时间】:2021-09-01 09:00:11 【问题描述】:

我正在使用自定义脚本从 EC2 机器启动 EMR 集群。在引导脚本中,我提到升级 numpy 以便它可以与 pandas 兼容。但是当我尝试导入 pandas 时,它说它需要大于 1.16 的 numpy 版本。在检查时我发现有两个版本的 numpy 可用 1.16 和 1.21。我在引导程序中给出了卸载命令,但它没有删除以前的版本。请帮忙

【问题讨论】:

【参考方案1】:

基于此 - https://forums.aws.amazon.com/thread.jspa?messageID=989210&tstart=0 - 我认为您可以尝试在引导脚本中降级您的 pandas 而不是升级 numpy。

【讨论】:

以上是关于AWS EMR v5.32.0 引导 Numpy 问题的主要内容,如果未能解决你的问题,请参考以下文章

AWS EMR 集群在自定义引导时终止

AWS EMR 上的持续集成

Matplotlib 使用 AWS-EMR jupyter notebook 绘图

在 AWS EMR 上运行 Spark 应用程序

如何使用 EMR 中的引导操作在 spark-conf 中添加 spark.executor.extraClassPath

aws emr 上的 spark 集群找不到 spark-env.sh