如何控制聚类距离或限制聚类选择?

Posted

技术标签:

【中文标题】如何控制聚类距离或限制聚类选择?【英文标题】:How to control over clustering distance or put some limit to cluster selection? 【发布时间】:2021-09-16 07:42:07 【问题描述】:

我有一个用例,我必须在大约 200k+ 的大数据集上进行聚类。我使用的是 KMeans,但我在使用 KMeans 时遇到了很大的问题。

假设我训练了一个 KMeans 模型并准备好预测集群。

现在,我正在发送一个输入 `

"(&)=hexvahamje"

这只是嵌入的噪声文本,我确信我的 KMeans 训练数据没有这样的噪声/文本。但是当我对它进行预测时,它会将嘈杂的文本预测为某个簇 x。这对我们的用例来说是错误的。如果有一个文本差异太大,我想预测类似 cluster None 之类的东西,

对这种被预测为集群 x 的嘈杂文本进行一些控制,而我的训练数据中甚至没有任何类似的文本。

我必须有哪些选择来克服这样的问题?请帮忙。

【问题讨论】:

【参考方案1】:

默认情况下,k-means 不处理噪声。它将假设每个数据点都属于一个集群。

由于您需要处理噪声,我的建议是查看现有的处理噪声的算法,例如 DBSCAN,它是一种基于密度的聚类算法。

根据您的用例,您也可以将问题转换为分类问题或运行单独的异常/异常值检测步骤,但如果没有更多信息,很难说。

【讨论】:

以上是关于如何控制聚类距离或限制聚类选择?的主要内容,如果未能解决你的问题,请参考以下文章

具有最小尺寸约束的聚类算法

数据挖掘的聚类算法和优势

基于度量/密度的聚类/分组

关于k-means算法的聚类分析

不能限制聚类列“状态”(前面的列“日期时间”受非 EQ 关系限制

k 表示聚类限制?