在 zeppelin 中使用从 %pyspark 到 %python 的 Dataframe

Posted

技术标签:

【中文标题】在 zeppelin 中使用从 %pyspark 到 %python 的 Dataframe【英文标题】:using Dataframe from %pyspark to %python in zeppelin 【发布时间】:2019-08-09 08:30:58 【问题描述】:

我在 %pyspark 中有一个 pandas 数据框,我想在 zeppelin 的 %python 单元格中使用它。我做不到。知道如何做到这一点吗?

【问题讨论】:

如果不将数据存储在两个实例外部的某个位置(csv、pickle...),您将无法直接执行此操作。 请查看早期答案***.com/a/52051588/4545870 【参考方案1】:

你可以直接使用,毕竟都是python,%pyspark只是python的API,可以用python语言使用spark,也可以在pandas DataFrames和pyspark DataFrames之间切换:

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('app_name').getOrCreate()
your_pyspark_df = spark.createDataFrame(your_pd_df)

另外,您可以使用 .toPandas() 方法返回 pandas DataFrame。

【讨论】:

以上是关于在 zeppelin 中使用从 %pyspark 到 %python 的 Dataframe的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Zeppelin 中的 Python Pyspark 中打印粗体 - 以及在 Zeppelin 中使用 python-print-function 的其他格式

pyspark matplotlib 与 Zeppelin 的集成

如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?

pyspark 代码在控制台中工作,但不在 zeppelin 中

apache zeppelin 使用 pyspark 读取 csv 失败

运行 Pyspark 脚本时的 Zeppelin 错误