如何使用 Ruby 进行一维 k 均值聚类?

Posted

技术标签:

【中文标题】如何使用 Ruby 进行一维 k 均值聚类?【英文标题】:How to make one-dimensional k-means clustering using Ruby? 【发布时间】:2015-03-02 11:45:27 【问题描述】:

我的问题:

我搜索了可用的 Ruby gem,找到了一个执行 k-means 聚类的。我发现了很多:kmeans、kmeans-clustering、reddavis-k_means 和 k_means_pp。我的问题是没有一个 gem 处理一维 k 均值聚类。他们都期望这样的输入:

[[1, 2], [3, 4], [5, 6]]

我的输入如下所示:

[1, 2, 3, 4, 5, 6]

因此我的问题是:如何使用 Ruby 执行一维 k 均值聚类?

上下文(我的任务):

我有 100 个输入值:

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 , 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3 , 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 5, 5, 5, 5, 5, 8, 8, 10, 16, 18, 22, 22, 35, 50 , 50

每个值代表一个响应时间,即某个客户服务代理响应客户电子邮件所用的分钟数。所以第一个值 0 表示客户只等待了 0 分钟的响应。

我需要找出有多少快速、中快速和慢速响应时间实例。换句话说,我想将我的输入值分成 3 个池,然后计算每个池中有多少个。

复杂的因素是,我必须根据整体坡度陡度来确定在哪里进行切割。快、中快和慢没有固定的定义。第一次切割(在快和中快之间)应该发生在斜坡的陡度开始比以前更剧烈增加的地方。第二次切割(介于中快和慢速之间)应在陡度增加更剧烈时进行。

这是输入值的图形表示。

在上面的示例中,常识可能会将快速定义为 0-3,因为 0、1、2 和 3 的实例很多。4-8 或 4-10 看起来像是中快速的常识选择.但是如何在数学上确定这样的事情呢?如果响应时间通常更快,那么客户会期待这一点,因此接近尾声的更小的增长应该会触发削减。

结束说明:

我确实找到了处理一维 k 均值聚类的 gem davidrichards-kmeans,但它似乎不能正常工作(示例代码引发语法错误)。

【问题讨论】:

假设您的数据是[1, 4, 6, 7, 8]。那么你可以对数据[[1, 0], [4, 0], [6, 0], [7, 0], [8, 0]]进行二维聚类,对吧? 【参考方案1】:

无论如何,k-means 是不适合这项工作的工具。

它不是为拟合指数曲线而设计的。

这里有一个更合理的建议:

看情节,标记三个点,然后你就有了你的三个组。

或者看分位数...报告中位响应时间、90% 分位数和 99% 分位数...

聚类是关于多元数据中的结构发现。这可能不是你想要的,抱歉。

如果您坚持尝试 k-means,请尝试将数据编码为

[[1], [2], [3], [4], [5]]

并检查结果是否至少与您想要的一样(还请记住,k-means 是随机的。多次运行它可能会产生非常不同的结果)。

【讨论】:

以上是关于如何使用 Ruby 进行一维 k 均值聚类?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 MapReduce 进行 k 均值空间聚类

我如何从熊猫绘制 k 均值聚类?

机器学习 | k均值聚类算法

第十篇:K均值聚类(KMeans)

如何对时间序列数据执行 K-means 聚类?

Python,OpenCV中的K均值聚类——K-Means Cluster