Spark MLib 基本统计汇总

Posted 2020-07-19 见贤思小齐，知足常乐呵

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark MLib 基本统计汇总相关的知识，希望对你有一定的参考价值。

1. 概括统计 summary statistics

MLlib支持RDD[Vector]列式的概括统计，它通过调用 Statistics 的 colStats方法实现。

colStats返回一个 MultivariateStatisticalSummary 对象，这个对象包含列式的最大值、最小值、均值、方差等等。

import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics}

val observations: RDD[Vector] = ...       // define an RDD of Vectors

// Compute column summary statistics.
val summary: MultivariateStatisticalSummary = Statistics.colStats(observations)
println(summary.mean)                     // a dense vector containing the mean value for each column
println(summary.variance)                 // column-wise variance
println(summary.numNonzeros)              // number of nonzeros in each column

2. 相关性

以上是关于Spark MLib 基本统计汇总的主要内容，如果未能解决你的问题，请参考以下文章