将 Pyspark 数据帧加载到 postgres RDS 中的表中时出错

Posted

技术标签:

【中文标题】将 Pyspark 数据帧加载到 postgres RDS 中的表中时出错【英文标题】:Error while Loading a Pyspark dataframe into a table in postgres RDS 【发布时间】:2022-01-09 10:21:54 【问题描述】:

尝试将数据帧写入 RDS 中的 postgres 表时出现以下错误

将 DataFrame 写入 RDS 中的 active_user 表

clean_user_df.write.jdbc(url=jdbc_url, table='active_user', mode=mode, properties=config)

【问题讨论】:

你好像没有jdbc驱动或者没有加载。 这行代码是jdbc驱动吗? !wget jdbc.postgresql.org/download/postgresql-42.2.16.jar 您如何创建连接属性并在您作为配置传递的那些连接属性中设置驱动程序? 【参考方案1】:

你需要下载 JDBC 驱动(你可以使用评论中的那个),然后按照 official instruction 使用那个 jar 文件

./bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars postgresql-9.4.1207.jar

【讨论】:

感谢您的回复。实际问题出在 RDS 的配置设置上。当我修复它时,我的代码工作了。

以上是关于将 Pyspark 数据帧加载到 postgres RDS 中的表中时出错的主要内容,如果未能解决你的问题,请参考以下文章

python Python PANDAS:将数据帧加载并保存到sqlite,MySQL,Oracle,Postgres

将 JSON 多行文件加载到 pyspark 数据框中

使用 pyspark 将数据帧写入 Kafka 时出现异常

如何使用 Python / Pyspark 在 Databricks 笔记本中合并数据帧

pyspark 使用模式将 csv 文件加载到数据框中

从 PySpark 加载数据帧