在 zeppelin 中使用从 %pyspark 到 %python 的 Dataframe
Posted
技术标签:
【中文标题】在 zeppelin 中使用从 %pyspark 到 %python 的 Dataframe【英文标题】:using Dataframe from %pyspark to %python in zeppelin 【发布时间】:2019-08-09 08:30:58 【问题描述】:我在 %pyspark 中有一个 pandas 数据框,我想在 zeppelin 的 %python 单元格中使用它。我做不到。知道如何做到这一点吗?
【问题讨论】:
如果不将数据存储在两个实例外部的某个位置(csv、pickle...),您将无法直接执行此操作。 请查看早期答案***.com/a/52051588/4545870 【参考方案1】:你可以直接使用,毕竟都是python,%pyspark只是python的API,可以用python语言使用spark,也可以在pandas DataFrames和pyspark DataFrames之间切换:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('app_name').getOrCreate()
your_pyspark_df = spark.createDataFrame(your_pd_df)
另外,您可以使用 .toPandas() 方法返回 pandas DataFrame。
【讨论】:
以上是关于在 zeppelin 中使用从 %pyspark 到 %python 的 Dataframe的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Zeppelin 中的 Python Pyspark 中打印粗体 - 以及在 Zeppelin 中使用 python-print-function 的其他格式
pyspark matplotlib 与 Zeppelin 的集成
如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?
pyspark 代码在控制台中工作,但不在 zeppelin 中