在运行 spark mllib kmeans 时,网站上每个阶段的作用是啥?
Posted
技术标签:
【中文标题】在运行 spark mllib kmeans 时,网站上每个阶段的作用是啥?【英文标题】:when running spark mllib kmeans, What is the role of each stage on website?在运行 spark mllib kmeans 时,网站上每个阶段的作用是什么? 【发布时间】:2018-02-24 11:47:58 【问题描述】:我尝试使用 spark mllib kmeans,但该作业挂在舞台“collectAsMap at KMeans.scala:302”上。我的代码是由 python 编写的。 有人可以告诉我每个阶段发生了什么,例如“在 KMeans.scala:436 收集”、在 KMeans.scala:404 聚合”、在 KMeans.scala:302 收集AsMap” here is the jobs picture
【问题讨论】:
【参考方案1】:K-means 是一种迭代算法,在每次迭代中,将点分配给最近的质心,并根据分配的点更新质心。重复此过程,直到满足某些质量指标。初始质心使用多种可能的方法之一计算,包括随机质心和 K-means||。
在 Spark 中,每次迭代都由聚合组成,其中计算新质心和 collectAsMap
,其中数据被提取到驱动程序并广播以供下一次迭代使用。
第二部分对应使用K-means的并行初始化||
【讨论】:
以上是关于在运行 spark mllib kmeans 时,网站上每个阶段的作用是啥?的主要内容,如果未能解决你的问题,请参考以下文章
3 分钟学会调用 Apache Spark MLlib KMeans
Spark Mllib kmeans 示例,使用数据框而不是 textFile