在运行 spark mllib kmeans 时，网站上每个阶段的作用是啥？

Posted 2023-03-12

技术标签:

【中文标题】在运行 spark mllib kmeans 时，网站上每个阶段的作用是啥？【英文标题】：when running spark mllib kmeans, What is the role of each stage on website?在运行 spark mllib kmeans 时，网站上每个阶段的作用是什么？ 【发布时间】：2018-02-24 11:47:58 【问题描述】：

我尝试使用 spark mllib kmeans，但该作业挂在舞台“collectAsMap at KMeans.scala:302”上。我的代码是由 python 编写的。有人可以告诉我每个阶段发生了什么，例如“在 KMeans.scala:436 收集”、在 KMeans.scala:404 聚合”、在 KMeans.scala:302 收集AsMap” here is the jobs picture

【问题讨论】：

【参考方案1】：

K-means 是一种迭代算法，在每次迭代中，将点分配给最近的质心，并根据分配的点更新质心。重复此过程，直到满足某些质量指标。初始质心使用多种可能的方法之一计算，包括随机质心和 K-means||。

在 Spark 中，每次迭代都由聚合组成，其中计算新质心和 collectAsMap，其中数据被提取到驱动程序并广播以供下一次迭代使用。

第二部分对应使用K-means的并行初始化||

【讨论】：

以上是关于在运行 spark mllib kmeans 时，网站上每个阶段的作用是啥？的主要内容，如果未能解决你的问题，请参考以下文章

3 分钟学会调用 Apache Spark MLlib KMeans

Spark Mllib kmeans 示例，使用数据框而不是 textFile

为啥 Spark Mllib KMeans 算法非常慢？

使用 Spark MLlib KMeans 从数据中预测集群

spark.mllib源码阅读-聚类算法1-KMeans