python中的文本聚类,而不是使用k_means

Posted

技术标签:

【中文标题】python中的文本聚类,而不是使用k_means【英文标题】:text clustering in python other than using k_means 【发布时间】:2017-10-17 19:02:50 【问题描述】:

由于 sklearn 中的 k_means 仅使用欧几里得距离,这不是衡量文本之间“距离”或“相似性”的好方法,在 python 中我们可以使用其他替代方法来进行“文本聚类”吗?

【问题讨论】:

您可以使用 scikit-learn 中实现的任何聚类方法,请参阅 here 。例如,您可以使用hierarchical clustering algorithms 【参考方案1】:

如果您希望使用其他指标,K-Medoids 可能是一个不错的选择。它类似于 K-Means,但在其更新步骤中使用中位数,而不是平均值。这允许使用任意距离指标。

this scikit-learn 拉取请求中提供了一个不错且易于使用的实现。

【讨论】:

以上是关于python中的文本聚类,而不是使用k_means的主要内容,如果未能解决你的问题,请参考以下文章

K_Means算法的MATLAB实现

大数据十大经典算法之k-means

Python中的聚类文本[关闭]

k_mean.fit 返回 ValueError: setting an array element with a sequence

基于它们在python中的合并顺序的层次聚类标签

k-means算法处理聚类标签不足的异常