RapidMiner 和 WEKA:不同的聚类结果

Posted

技术标签:

【中文标题】RapidMiner 和 WEKA:不同的聚类结果【英文标题】:RapidMiner and WEKA : Different clustering result 【发布时间】:2015-01-30 19:06:13 【问题描述】:

我是数据挖掘分析和机器学习的新手。我一直在尝试比较在我的大学作业中使用 RapidMiner 和 Weka 进行预测分析和聚类分析的使用情况。

在我研究了这两种工具的优缺点并开始进行分析过程之后,我发现了一些问题。我尝试使用 K-means 和 simpleKmeans 对 Weka 进行聚类,并使用 LinearRegression 进行回归分析,但我对结果不太满意,因为它们包含显着不同的结果。所有这些我都使用了相同的数据集。数值数据集。

我花了很多时间试图通过研究每个工具的每个算法的初始化来弄清楚一些事情,因为接口不同,并且有一些参数在 RapidMiner 上但在 Weka 或其他地方没有,所以我有点困惑。 (是不是有问题?)

尽管您认为有什么问题?我错过了一些初始化过程吗?还是因为每个工具的代码不同,即使它们使用相同的算法?

感谢您的回答!

【问题讨论】:

【参考方案1】:

您使用的是 WEKA 本身还是 rapidminer 的 WEKA 扩展?您是否尝试将 WEKA 的结果与 RM WEKA 进行比较?

【讨论】:

我使用了 WEKA 本身。是的,我也试过了,结果是一样的。所以问题确实来自 Weka 中的 simpleKmeans 算法,就像 Anony-Mousse 回答的那样。它包含内置的规范化【参考方案2】:

Weka 至少在 k-means 和其他算法中经常使用内置的标准化

如果您想让结果具有可比性,请确保您已禁用此功能。

还要理解 k-means 是一种随机化算法。即使是来自同一个包的不同结果也是可以预期的(并且是可取的)。

【讨论】:

谢谢,这正是我需要的。但是我们如何禁用它呢?我已经在 weka explorer 中进行了搜索,但我没有发现有关如何禁用它的信息。除此之外,我已经对此进行了一些谷歌搜索,是的,我找到了一些解释它的论文。但它没有说明 weka 使用什么标准化方法。因为我不知道如何禁用它,所以我一直在尝试在 RapidMiner 中添加规范化运算符,并尝试了所有可用的方法,但仍然没有可比性。你有什么主意吗?非常感谢您的回复! :) IIRC(我不怎么用 Weka,ELKI 快多了)距离函数有一个选项。

以上是关于RapidMiner 和 WEKA:不同的聚类结果的主要内容,如果未能解决你的问题,请参考以下文章

使用 RapidMiner 设计聚类过程

适用于非常小的集群的聚类算法

两种不同的聚类方法(通过光谱分析)和两种不同的结果……发生了啥?

基于密度的聚类方法

DBSCAN 算法

独家 | 如何正确选择聚类算法?