绘制一个非常大的 pyspark 列的直方图

Posted

技术标签:

【中文标题】绘制一个非常大的 pyspark 列的直方图【英文标题】:Plotting the histogram of a very huge pyspark column 【发布时间】:2018-12-17 11:01:08 【问题描述】:

相关问题:Pyspark: show histogram of a data frame column

我有一个很长的专栏,无法按照上述主题中的建议将其转换为 pandas(spark 内存不足)。

如何绘制此列的直方图?

【问题讨论】:

在相关问题中,最后一个选项仅将结果直方图转换为 pandas。该选项对您的情况不起作用吗? ***.com/questions/39154325/…的可能重复 【参考方案1】:

您应该能够从随机抽样的数据子集中获得具有代表性的直方图。也许从 1% 开始,如下所示:

dfs = df.sample(withReplacement=False, fraction=0.01, seed=None).toPandas()

然后看看内存是否允许dfs.hist()

在许多数据科学应用中,对大列和数据帧进行下采样是完全合法的(尽管在寻找罕见事件时可能会很麻烦)。多次重复该过程(使用seed=None)并比较结果以让您放心。

【讨论】:

以上是关于绘制一个非常大的 pyspark 列的直方图的主要内容,如果未能解决你的问题,请参考以下文章

如何在 pyspark 中绘制直方图

Plotly express - 使用下拉菜单绘制直方图不同列的代码

在 Pandas 中绘制带有非常重尾数据的直方图

使用 seaborn 绘制多个直方图

使用 seaborn 为数据框绘制直方图

matlab中的bar函数怎么用