K-Means:Lloyd、Forgy、MacQueen、Hartigan-Wong

Posted

技术标签:

【中文标题】K-Means:Lloyd、Forgy、MacQueen、Hartigan-Wong【英文标题】:K-Means: Lloyd,Forgy,MacQueen,Hartigan-Wong 【发布时间】:2013-12-25 02:41:18 【问题描述】:

我正在使用 R 中的 K-Means 算法,我想找出 4 种算法 Lloyd、Forgy、MacQueen 和 Hartigan-Wong 的区别,它们可用于 stats 包中的函数“kmeans”。

然而,我注意到这个问题得到了足够的答案。

我只找到了一些很少见的信息: (访问http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/K-Means)

从这个描述来看,Lloyd、Forgy 和 Hartigan-Wong 在我看来是一样的。最小化平方和或最小化欧几里得距离是一样的。

MacQueen 的不同之处在于,如果我是对的,如果将一个对象移动到另一个集群,它会更新两个相关的集群。

尽管如此,我仍然看不出这些算法在哪些方面有所不同。

【问题讨论】:

您可能会在“交叉验证”堆栈交换网站上获得更多关注。 【参考方案1】:

k-means 聚类技术:Mathematica 中的一般考虑和实施,Morissette & Chartier (2013) (10.20982/tqmp.09.1.p015); PDF1, PDF2

第 16 页清楚地说明了 Gorgy/Llyods、MacQueen、Hatigan-Wong 算法。

另外this question 包含对 Lloyd、MacQueen 和 Hartigan-Wong 算法的简短描述。

【讨论】:

如果此链接失效,则此答案将毫无用处。请说明相关事项【参考方案2】:

R 提供劳埃德算法作为 kmeans() 的一个选项;默认算法,由 Hartigan and Wong (1979) 要聪明得多。像 MacQueen 的算法(MacQueen,1967)一样, 每当一个点移动时,它都会更新质心;它还做出了聪明(省时)的选择 在检查最近的集群。另一方面,Lloyd 的 k-means 算法是所有这些聚类算法中第一个也是最简单的算法。

Lloyd 算法(Lloyd,1957 年)采用一组观察结果或案例(想想: nxp 矩阵或实数中的点)并将它们聚类到k 组中。它试图最小化 簇内平方和

其中 u_i 是簇 S_i 中所有点的平均值。算法进行如下(我将 省去详尽符号的形式):

然而,R 的实现存在问题,问题出现在 考虑多个起点。我应该注意到,通常谨慎考虑 几个不同的起点,因为算法保证收敛,但不是 保证覆盖到全局最优值。对于大型的高维数据尤其如此 问题。我将从一个简单的例子开始(大,不是特别难)。

(这里我会贴一些图片,因为我们不能用乳胶写数学公式)

请注意,该解决方案与之前实现的解决方案非常相似,尽管 集群是任意的。更重要的是,这项工作并行只用了 0.199 秒!一定 这好得令人难以置信:使用 3 个处理器内核最多应该占三分之一 我们第一次(连续)运行的时间。这是一个问题吗?听起来像是免费午餐。没有 偶尔吃一顿免费午餐有问题吗?

这并不总是适用于 R 函数,但有时我们有机会直接查看 在代码处。这是其中之一。我要将此代码放入文件 mykmeans.R 中, 并手动编辑它,在不同的地方插入 cat() 语句。这是一个聪明的方法 这个,使用 sink() (虽然这在 Sweave 中似乎不起作用,但它会以交互方式工作):

> sink("mykmeans.R")
> kmeans
> sink()

现在编辑文件,更改函数名称并添加 cat() 语句。笔记 您还必须删除尾随行::

然后我们可以重复我们的探索,但使用 mykmeans():

> source("mykmeans.R")
> start.kmeans <- proc.time()[3]
> ans.kmeans <- mykmeans(x, 4, nstart = 3, iter.max = 10, algorithm = "Lloyd")
JJJ statement 1: 0 elapsed time.
JJJ statement 5: 2.424 elapsed time.
JJJ statement 6: 2.425 elapsed time.
JJJ statement 7: 2.52 elapsed time.
JJJ statement 6: 2.52 elapsed time.
JJJ statement 7: 2.563 elapsed time.

现在我们开始做生意了:大部分时间都花在了语句 5 之前(我知道 当然,这就是为什么陈述 5 是 5 而不是 2)... 你可以继续玩它

代码如下:

#######################################################################
# kmeans()

N <- 100000
x <- matrix(0, N, 2)
x[seq(1,N,by=4),] <- rnorm(N/2)
x[seq(2,N,by=4),] <- rnorm(N/2, 3, 1)
x[seq(3,N,by=4),] <- rnorm(N/2, -3, 1)
x[seq(4,N,by=4),1] <- rnorm(N/4, 2, 1)
x[seq(4,N,by=4),2] <- rnorm(N/4, -2.5, 1)
start.kmeans <- proc.time()[3]
ans.kmeans <- kmeans(x, 4, nstart=3, iter.max=10, algorithm="Lloyd")
ans.kmeans$centers
end.kmeans <- proc.time()[3]
end.kmeans - start.kmeans

these <- sample(1:nrow(x), 10000)
plot(x[these,1], x[these,2], pch=".")
points(ans.kmeans$centers, pch=19, cex=2, col=1:4)

library(foreach)
library(doMC)
registerDoMC(3)
start.kmeans <- proc.time()[3]
ans.kmeans.par <- foreach(i=1:3) %dopar% 
  return(kmeans(x, 4, nstart=1, iter.max=10, algorithm="Lloyd"))

TSS <- sapply(ans.kmeans.par, function(a) return(sum(a$withinss)))
ans.kmeans.par <- ans.kmeans.par[[which.min(TSS)]]
ans.kmeans.par$centers
end.kmeans <- proc.time()[3]
end.kmeans - start.kmeans

sink("mykmeans.Rfake")
kmeans
sink()

source("mykmeans.R")
start.kmeans <- proc.time()[3]
ans.kmeans <- mykmeans(x, 4, nstart=3, iter.max=10, algorithm="Lloyd")
ans.kmeans$centers
end.kmeans <- proc.time()[3]
end.kmeans - start.kmeans

#######################################################################
# Diving

x <- read.csv("Diving2000.csv", header=TRUE, as.is=TRUE)
library(YaleToolkit)
whatis(x)

x[1:14,c(3,6:9)]

meancol <- function(scores) 
  temp <- matrix(scores, length(scores)/7, ncol=7)
  means <- apply(temp, 1, mean)
  ans <- rep(means,7)
  return(ans)

x$panelmean <- meancol(x$JScore)

x[1:14,c(3,6:9,11)]

meancol <- function(scores) 
  browser()
  temp <- matrix(scores, length(scores)/7, ncol=7)
  means <- apply(temp, 1, mean)
  ans <- rep(means,7)
  return(ans)


x$panelmean <- meancol(x$JScore)

这里是描述:

Number of cases: 10,787 scores from 1,541 dives (7 judges score each
dive) performed in four events at the 2000 Olympic Games in Sydney,
Australia.

Number of variables: 10.

Description: A full description and analysis is available in an
article in The American Statistician (publication details to be
announced).

Variables:

Event       Four events, men's and women's 3M and 10m.
Round       Preliminary, semifinal, and final rounds.
Diver       The name of the diver.
Country     The country of the diver.
Rank        The final rank of the diver in the event.
DiveNo      The number of the dive in sequence within round.
Difficulty  The degree of difficulty of the dive.
JScore      The score provided for the judge on this dive.
Judge       The name of the judge.
JCountry    The country of the judge.

以及用于试验的数据集https://www.dropbox.com/s/urgzagv0a22114n/Diving2000.csv

【讨论】:

感谢您的详细回答!尤其是运行时部分似乎很有趣。 (请注意:我在 R 中检查它时得到的 kmeans 函数与您的提取物略有不同,所以也许已经实现了一些变化)。但是我的问题的重点是不同的。我会对 Hartigan-Wong 所做的“聪明(节省时间)选择”或 Lloyd 和 Forgy 算法之间的区别感兴趣。不过还是谢谢你的回答!

以上是关于K-Means:Lloyd、Forgy、MacQueen、Hartigan-Wong的主要内容,如果未能解决你的问题,请参考以下文章

聚类的重要性是啥?

C语言如何取字符串的最后一个,比如Lloyd2取最后一个字符

Python Codecademy Student Becomes the Teacher

循环遍历包含 dicts 的列表并以某种方式显示它

drools规则引擎初探

4. K-Means和K-Means++实现