PySpark Jupyter 笔记本显示器

Posted

技术标签:

【中文标题】PySpark Jupyter 笔记本显示器【英文标题】:PySpark Juypter Notebook Displays 【发布时间】:2020-08-13 20:53:09 【问题描述】:

我对 jupyter notebook 很陌生,我正在努力以类似于普通 panda 数据框(图 2)的更简洁的方式显示我的 spark 表(图 1)。我尽量不使用熊猫。

显示功能在 spark 数据帧上不起作用 :( 有人可以帮我吗?这将使我更容易分析 spark 表。

【问题讨论】:

【参考方案1】:

当您构建 Spark 会话时,添加配置。

.config("spark.sql.repl.eagerEval.enabled", True)

例如,

import findspark
findspark.init()

from pyspark.sql import SparkSession

spark = SparkSession.builder \
          .master("local") \
          .config("spark.sql.repl.eagerEval.enabled", True) \
          .getOrCreate()

只需调用没有.show 的数据框,如下所示

df

将以这种方式打印结果。

【讨论】:

以上是关于PySpark Jupyter 笔记本显示器的主要内容,如果未能解决你的问题,请参考以下文章

如何使用pyspark在jupyter笔记本中显示我的csv数据文件

无法使用 Jupyter 笔记本上的 pyspark 从 Apache Spark 连接到 MS SQL

在 AWS EMR v4.0.0 上使用 Pyspark 配置 Ipython/Jupyter 笔记本

使用 Jupyter Notebook 为 PySpark 内核设置 spark.app.name

python / pyspark 版本的 Jupyter 问题

使用 Spacy 使用 PySpark 和 Jupyter 解析文本时出错