Spark MLib 基本统计汇总

Posted 见贤思小齐,知足常乐呵

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark MLib 基本统计汇总相关的知识,希望对你有一定的参考价值。

1.  概括统计 summary statistics

MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。

colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、均值、方差等等。

import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics}

val observations: RDD[Vector] = ...       // define an RDD of Vectors

// Compute column summary statistics. val summary: MultivariateStatisticalSummary = Statistics.colStats(observations) println(summary.mean) // a dense vector containing the mean value for each column println(summary.variance) // column-wise variance println(summary.numNonzeros) // number of nonzeros in each column

2.  相关性

 

以上是关于Spark MLib 基本统计汇总的主要内容,如果未能解决你的问题,请参考以下文章

大数据:Spark mlib GradientDescent梯度下降算法之Spark实现

离线轻量级大数据平台Spark之MLib机器学习库概念学习

大数据:Spark mlib KMeans聚类算法源码分析

大数据:Spark mlib Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析

zhihu spark集群

sparksql---通过pyspark实现