如何使用 jdbc pyspark python 在现有表中添加新列?

Posted

技术标签:

【中文标题】如何使用 jdbc pyspark python 在现有表中添加新列?【英文标题】:How to add new column in existing table uaing jdbc pyspark python? 【发布时间】:2021-07-26 15:22:06 【问题描述】:

这是否可以在不覆盖现有表的情况下向现有表添加新列? 所以如果表中有 col1 ,我想添加 col2 。所以在 .save() 之后会有 col1 和 col2 一起,而不仅仅是覆盖 col2。

提前谢谢你。

【问题讨论】:

尝试“从 your_table 中选择 col2”。如果这给您一个错误,则 col2 不存在(假设其他一切正常)。另一种方法是使用 ALTER TABLE 语句尝试添加 col2。如果 col2 存在,那么这将失败 【参考方案1】:

查看更改语法

https://spark.apache.org/docs/latest/sql-ref-syntax-ddl-alter-table.html

使用spark.sql(query)

f。 e. ALTER TABLE yourtable ADD columns (LastName string, DOB timestamp);

【讨论】:

这可以用 jdbc 连接器和 pyspark 做同样的事情吗?没有本机 mysql ?谢谢。 不,我不知道任何只有有限的功能,这就是为什么你可以使用 ddl

以上是关于如何使用 jdbc pyspark python 在现有表中添加新列?的主要内容,如果未能解决你的问题,请参考以下文章

使用 pyspark 对 SQL Server JDBC 使用 Windows 身份验证

通过 JDBC 进行并行化 - Pyspark - 并行化如何使用 JDBC 工作?

如何使用 JDBC 源在 (Pyspark?

如何使用 JDBC 源在 (Pyspark?

PySpark:如何使用带有 JDBC 连接的 MySQL 函数?

如何使用带有 PySpark 的 WHERE 子句在 AWS Glue 中查询 JDBC 数据库?