计算Spark DataFrame中每列的内核密度
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了计算Spark DataFrame中每列的内核密度相关的知识,希望对你有一定的参考价值。
有没有办法计算DataFrame每列的KDE?
我有一个DataFrame,其中每列代表一个功能的值。 Spark MLLib的KDE功能需要RDD[Double]
的样本值。问题是我需要找到一种方法而不收集每列的值,因为这会使程序变慢。
有谁知道如何解决这个问题?可悲的是,我所有的尝试都失败了。
答案
您可以使用样本函数(refer here)创建新的RDD,然后执行操作以获得最佳性能。
以上是关于计算Spark DataFrame中每列的内核密度的主要内容,如果未能解决你的问题,请参考以下文章