在运行 spark mllib kmeans 时,网站上每个阶段的作用是啥?

Posted

技术标签:

【中文标题】在运行 spark mllib kmeans 时,网站上每个阶段的作用是啥?【英文标题】:when running spark mllib kmeans, What is the role of each stage on website?在运行 spark mllib kmeans 时,网站上每个阶段的作用是什么? 【发布时间】:2018-02-24 11:47:58 【问题描述】:

我尝试使用 spark mllib kmeans,但该作业挂在舞台“collectAsMap at KMeans.scala:302”上。我的代码是由 python 编写的。 有人可以告诉我每个阶段发生了什么,例如“在 KMeans.scala:436 收集”、在 KMeans.scala:404 聚合”、在 KMeans.scala:302 收集AsMap” here is the jobs picture

【问题讨论】:

【参考方案1】:

K-means 是一种迭代算法,在每次迭代中,将点分配给最近的质心,并根据分配的点更新质心。重复此过程,直到满足某些质量指标。初始质心使用多种可能的方法之一计算,包括随机质心和 K-means||。

在 Spark 中,每次迭代都由聚合组成,其中计算新质心和 collectAsMap,其中数据被提取到驱动程序并广播以供下一次迭代使用。

第二部分对应使用K-means的并行初始化||

【讨论】:

以上是关于在运行 spark mllib kmeans 时,网站上每个阶段的作用是啥?的主要内容,如果未能解决你的问题,请参考以下文章

3 分钟学会调用 Apache Spark MLlib KMeans

Spark Mllib kmeans 示例,使用数据框而不是 textFile

为啥 Spark Mllib KMeans 算法非常慢?

使用 Spark MLlib KMeans 从数据中预测集群

spark.mllib源码阅读-聚类算法1-KMeans

spark.mllib源码阅读-聚类算法1-KMeans