如何更新 Amazon Redshift 上的 Python 库?

Posted

技术标签:

【中文标题】如何更新 Amazon Redshift 上的 Python 库?【英文标题】:How to update Python libraries on Amazon Redshift? 【发布时间】:2016-07-11 15:31:01 【问题描述】:

根据 Redshift 的documentation,一些 Python 库已经包含在集群中。但是,例如,我想使用更高版本的 scipy。

我已尝试按照here 的描述创建或替换库,但结果是我的 scipy-0.17 库与默认的 scipy-0.12 并行安装。因此,当在 udf(来自 scipy import...)中调用 scipy 时,会加载默认的(0.12)而不是安装的(0.17)。

我也尝试使用自定义名称加载 scipy-0.17,但这就像一个标签,并且不能用它来调用库。

关于如何用 0.17 替换默认 scipy-0.12 版本或至少在我的 udf 中调用 0.17 版本的任何想法?

【问题讨论】:

你有想过这个问题吗? 不,很遗憾没有。几年前我真的放弃了。我不知道是否有什么改变可以解决它。 【参考方案1】:

查看以下由 awslabs 维护的 github 存储库。

https://github.com/awslabs/amazon-redshift-udfs/tree/master/bin/PipLibraryInstaller

【讨论】:

不幸的是,这并不能解决我绕过或更新默认 scipy-0.12 版本的问题。事实上,我已经设法将 scipy-0.17 安装为自定义库。问题是它安装在一个单独的目录中,当我在 udf 中使用 scipy 时,会调用默认目录。 @Pranasas:不幸的是没有。我仍在使用较旧的库(0.12),这对我的代码有一些不良后果。 :(

以上是关于如何更新 Amazon Redshift 上的 Python 库?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Pentaho 处理 Amazon Redshift 中缓慢变化的维度?

amazon redshift 并发写入导致插入记录,导致重复

Amazon Redshift 存储过程调用

查询缓存amazon redshift

使用大表连接更新 Amazon Redshift 中的列

在 Amazon Redshift 中的表之间传输数据