如何在 Databricks 的 PySpark 中使用在 Scala 中创建的 DataFrame

Posted

技术标签:

【中文标题】如何在 Databricks 的 PySpark 中使用在 Scala 中创建的 DataFrame【英文标题】:How to Use DataFrame Created in Scala in Databricks' PySpark 【发布时间】:2019-11-17 12:50:22 【问题描述】:

我的 Databricks 笔记本使用 Python。 笔记本中的一些代码是用 Scala 编写的(使用 %scala),其中之一是用于创建数据帧。

如果我再次使用 Python/PySpark(默认模式),我如何使用/访问这个在 scala 模式下创建的数据帧?

有可能吗?

谢谢

【问题讨论】:

【参考方案1】:

您可以通过 SparkSQL 中的临时表访问以一种语言和另一种语言创建的 DataFrame。

例如,假设您在 Scala 中有一个名为 scalaDF 的 DataFarame。您可以为其创建一个临时视图并使其可供 Python 单元访问,例如:

scalaDF.createOrReplaceTempView("my_table")

然后你可以在 Python 单元格中运行

pythonDF = spark.sql("select * from my_table")

pythonDF.show()

在这些语言和 R 之间传递数据帧也是如此。常见的构造是 SparkSQL 表。

【讨论】:

以上是关于如何在 Databricks 的 PySpark 中使用在 Scala 中创建的 DataFrame的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Python / Pyspark 在 Databricks 笔记本中合并数据帧

如何在 Azure Databricks PySpark 中执行存储过程?

如何在 Databricks pyspark 中导入 Excel 文件

如何使用 Pyspark 在 Databricks 中合并 Hive 表中的记录?

使用pyspark,spark + databricks时如何将完全不相关的列添加到数据框中

在databricks中使用cobrix处理大型机文件-Pyspark python 3