从 Redshift 读取到 Spark Dataframe（Spark-Redshift 模块）

Posted 2023-03-30

技术标签:

【中文标题】从 Redshift 读取到 Spark Dataframe（Spark-Redshift 模块）【英文标题】：Reading from Redshift into Spark Dataframe (Spark-Redshift Module) 【发布时间】：2018-11-20 19:47:48 【问题描述】：

我正在按照 spark-redshift 教程从 redshift 读取到 spark（databricks）。我有以下代码：

val tempDir = "s3n://my-s3-bucket-here"



val jdbcUsername = "usernameExample"
val jdbcPassword = "samplePassword"
val jdbcHostname = "redshift.companyname.xyz"
val jdbcPort = 9293
val jdbcDatabase = "database"
val jdbcUrl = "sampleURL"


sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "SAMPLEAWSKEY")
sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "SECRETKEYHERE")

val subs_dim = sqlContext.read.format("com.databricks.spark.redshift").option("url", jdbcUrl).option("tempdir", tempDir).option("dbtable", "example.exampledb").load()

现在，当我尝试运行它时，我得到：

java.lang.IllegalArgumentException: requirement failed: You must specify a method for authenticating Redshift's connection to S3 (aws_iam_role, forward_spark_s3_credentials, or temporary_aws_*. For a discussion of the differences between these options, please see the README.

我有点困惑，因为我使用 sc.hadoopConfiguration.set 定义了 awsAccesskeyID。我是公司的新人，所以我想知道 AWS 密钥是否错误，或者我是否遗漏了其他内容？

谢谢！

【问题讨论】：

您阅读自述文件了吗？它有什么亮点吗？是的，我检查过了，它说要设置 AWS 凭证...我做了吗？ 【参考方案1】：

我认为我看到的唯一原因是，它没有将 S3 凭据传递给 Redshift 连接，因为您尚未设置 forward_spark_s3_credentials。

在您的通话中添加以下选项。

option("forward_spark_s3_credentials", "true");

参考下面documentationsn-p。

将 Spark 的 S3 凭据转发到 Redshift：如果 forward_spark_s3_credentials 选项设置为 true，则此库将自动发现 Spark 用于连接到 S3 的凭据，并将这些凭据通过 JDBC 转发到 Redshift。

希望对你有帮助！

【讨论】：

以上是关于从 Redshift 读取到 Spark Dataframe（Spark-Redshift 模块）的主要内容，如果未能解决你的问题，请参考以下文章