EM Clustering with weka 对于某些集群的对数可能性为 0？令人困惑的输出

Posted 2023-03-12

技术标签:

【中文标题】EM Clustering with weka 对于某些集群的对数可能性为 0？令人困惑的输出【英文标题】：EM Clustering with weka with log likelihood of 0 for some clusters? Confusing output 【发布时间】：2016-07-29 22:52:48 【问题描述】：

我使用 EM 聚类器对 43574 个时间序列进行了聚类。输出是 24 个集群。我在这里有一些问题。首先，处理 24 个集群实际上有用吗？是不是太多了？如果我将结果传递给神经外科医生，为了管理患者而标记这些集群，这会起作用吗？我最重要的问题是，如下所示，几个集群的可能性为 0%？！那是什么意思？那为什么它们在不同的集群中？任何帮助将不胜感激，这就是我得到的：

0 1892 ( 4%) 1 5153 ( 12%) 2 1594 ( 4%) 3 1221 ( 3%) 4 122 ( 0%) 5 2714 ( 6%) 6 7092 ( 16%) 7 141 ( 0%) 8 166 ( 0%) 9 464 ( 1%) 10 3331 ( 8%) 11 4316 ( 10%) 14 2411 ( 6%) 15 2573 ( 6%) 17 3063 ( 7%) 18 142 ( 0%) 19 4211 ( 10%) 20 925 ( 2%) 21 2038 ( 5%) 22 5 ( 0%)

【问题讨论】：

【参考方案1】：

这些值不是可能性，而是大小。

data=array([1892, 5153, 1594, 1221, 122, 2714, 7092, 141, 166,
  464, 3331, 4316, 2411, 2573, 3063, 142, 4211, 925, 2038, 5])

for f in data * 100. / sum(data): print "%.1f%%" % f,

产生以下具有额外精度的相对簇大小：

4.3% 11.8% 3.7% 2.8% 0.3% 6.2% 16.3% 0.3% 0.4% 1.1% 7.6% 9.9%
5.5% 5.9% 7.0% 0.3% 9.7% 2.1% 4.7% 0.0%

这些都不是可能性。它是集群大小/数据集大小。

【讨论】：

匿名，我不清楚定义 5 个全部为 0% 的集群是什么意思？！正如你所说，集群大小。如果没有数据可以在那个集群上分类，我们为什么要得到那个集群？！还有为什么我得到几个 0% 而不是 1 ？这不是绝对的 0.0000000%，而是 5/43574。也不是概率。它只是一个只有 5 个对象的非常小的集群。可能是异常值或糟糕的预处理。

以上是关于EM Clustering with weka 对于某些集群的对数可能性为 0？令人困惑的输出的主要内容，如果未能解决你的问题，请参考以下文章