聚类分析?标记集群

Posted

技术标签:

【中文标题】聚类分析?标记集群【英文标题】:cluster analysis? label the cluster 【发布时间】:2013-12-18 17:02:02 【问题描述】:

我对以下两个问题感到很困惑: 我有一个 15 维数据集,应该用于对数据集中包含多少种攻击进行聚类。

1。现在我已经将我的数据集分为 5 个集群(5 次攻击)。有谁知道我如何指出哪个集群是哪个攻击? (如何标记集群,而不仅仅是“集群 1,集群 2...”)

2。在监督分类中,我们有训练数据集和测试数据集,测试是使用从训练数据集构建的分类器进行的。我的问题是,是否可以使用相同的方法进行聚类。就像用聚类算法建立模型,然后自动将新实例分类到特定的集群?这可以实现吗?

【问题讨论】:

【参考方案1】:

无监督方法应该如何识别命名攻击?

人工命名的名称不在数据中!

对于某些聚类算法,您可以自动分配新实例,但通常不能(除非不知道聚类使用的模型)。在最坏的情况下,一个新的观察甚至会例如合并两个集群为一个。那你打算怎么办?

如果你想要分类,请使用分类,而不是聚类。

集群具有非常不同的思维方式。如果您从分类的角度来处理它,您将不会真正理解它。您使用聚类来发现数据中未知的东西,使用分类将已知的东西推广到新数据。

如有必要,您还可以在集群上训练分类器。但不要盲目地这样做。首先确保集群实际上是有用的。提出一个完全没有意义的聚类结果比提出一个好的聚类结果容易很多。在毫无价值的集群上训练分类器不会产生有意义的输出。

【讨论】:

感谢您的回答!现在我想尝试在我的集群上训练一个分类器。 我无法回答这个问题,因为我不知道您使用什么软件。另外,反正我也不怎么使用分类。 我正在使用 weka API 进行集群 好吧,我不使用 Weka。你看过 Weka 的书吗? 我大致了解了如何使用 weka。现在我正在使用 weka API 进行聚类并完成聚类步骤,考虑如何标记聚类。我是数据挖掘的新手 :)

以上是关于聚类分析?标记集群的主要内容,如果未能解决你的问题,请参考以下文章

「聚类分析」16聚类分析之KMeans算法与K中心点算法

R中的聚类分析:确定最佳聚类数

聚类(Clustering)

请问spss中聚类分析的操作步骤

聚类分析之KNN

技术 文本聚类与分类