EM Clustering with weka 对于某些集群的对数可能性为 0?令人困惑的输出

Posted

技术标签:

【中文标题】EM Clustering with weka 对于某些集群的对数可能性为 0?令人困惑的输出【英文标题】:EM Clustering with weka with log likelihood of 0 for some clusters? Confusing output 【发布时间】:2016-07-29 22:52:48 【问题描述】:

我使用 EM 聚类器对 43574 个时间序列进行了聚类。输出是 24 个集群。我在这里有一些问题。首先,处理 24 个集群实际上有用吗?是不是太多了?如果我将结果传递给神经外科医生,为了管理患者而标记这些集群,这会起作用吗?我最重要的问题是,如下所示,几个集群的可能性为 0%?!那是什么意思?那为什么它们在不同的集群中?任何帮助将不胜感激,这就是我得到的:

0 1892 ( 4%) 1 5153 ( 12%) 2 1594 ( 4%) 3 1221 ( 3%) 4 122 ( 0%) 5 2714 ( 6%) 6 7092 ( 16%) 7 141 ( 0%) 8 166 ( 0%) 9 464 ( 1%) 10 3331 ( 8%) 11 4316 ( 10%) 14 2411 ( 6%) 15 2573 ( 6%) 17 3063 ( 7%) 18 142 ( 0%) 19 4211 ( 10%) 20 925 ( 2%) 21 2038 ( 5%) 22 5 ( 0%)

【问题讨论】:

【参考方案1】:

这些值不是可能性,而是大小

data=array([1892, 5153, 1594, 1221, 122, 2714, 7092, 141, 166,
  464, 3331, 4316, 2411, 2573, 3063, 142, 4211, 925, 2038, 5])

for f in data * 100. / sum(data): print "%.1f%%" % f,

产生以下具有额外精度的相对簇大小:

4.3% 11.8% 3.7% 2.8% 0.3% 6.2% 16.3% 0.3% 0.4% 1.1% 7.6% 9.9%
5.5% 5.9% 7.0% 0.3% 9.7% 2.1% 4.7% 0.0%

这些都不是可能性。它是集群大小/数据集大小

【讨论】:

匿名,我不清楚定义 5 个全部为 0% 的集群是什么意思?!正如你所说,集群大小。如果没有数据可以在那个集群上分类,我们为什么要得到那个集群?!还有为什么我得到几个 0% 而不是 1 ? 这不是绝对的 0.0000000%,而是 5/43574。也不是概率。它只是一个只有 5 个对象的非常小的集群。可能是异常值或糟糕的预处理。

以上是关于EM Clustering with weka 对于某些集群的对数可能性为 0?令人困惑的输出的主要内容,如果未能解决你的问题,请参考以下文章

在我的 JAVA 代码中使用带有 weka 的 EM 聚类?

在 Weka 中以编程方式获取 EM 聚类器输出

Weka EM 集群在 Eclipse 中得到“错误:无法找到或加载主类测试”

retrival and clustering : week 4 GMM & EM 笔记

Docker : Tomcat Clustering with Load Balancer (Tomcat and Nginx)

EM算法详解