Spark MLib 基本统计汇总
Posted 见贤思小齐,知足常乐呵
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark MLib 基本统计汇总相关的知识,希望对你有一定的参考价值。
1. 概括统计 summary statistics
MLlib
支持RDD[Vector]
列式的概括统计,它通过调用 Statistics
的 colStats
方法实现。
colStats
返回一个 MultivariateStatisticalSummary
对象,这个对象包含列式的最大值、最小值、均值、方差等等。
import org.apache.spark.mllib.linalg.Vector import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics} val observations: RDD[Vector] = ... // define an RDD of Vectors
// Compute column summary statistics. val summary: MultivariateStatisticalSummary = Statistics.colStats(observations) println(summary.mean) // a dense vector containing the mean value for each column println(summary.variance) // column-wise variance println(summary.numNonzeros) // number of nonzeros in each column
2. 相关性
以上是关于Spark MLib 基本统计汇总的主要内容,如果未能解决你的问题,请参考以下文章
大数据:Spark mlib GradientDescent梯度下降算法之Spark实现