计算Spark DataFrame中每列的内核密度

Posted 2021-04-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了计算Spark DataFrame中每列的内核密度相关的知识，希望对你有一定的参考价值。

有没有办法计算DataFrame每列的KDE？

我有一个DataFrame，其中每列代表一个功能的值。 Spark MLLib的KDE功能需要RDD[Double]的样本值。问题是我需要找到一种方法而不收集每列的值，因为这会使程序变慢。

有谁知道如何解决这个问题？可悲的是，我所有的尝试都失败了。

答案

您可以使用样本函数（refer here）创建新的RDD，然后执行操作以获得最佳性能。

以上是关于计算Spark DataFrame中每列的内核密度的主要内容，如果未能解决你的问题，请参考以下文章

如何计算熊猫数据框中每一列的唯一性？

计算Spark DataFrame中的非空值的数量

在大熊猫DataFrame中按组删除异常值的更快方法[重复]

如何获得每列的最大值？

获取二维数组中每列的第二个最小值

如何控制 flexbox 中每列的项目数？