python中的文本聚类，而不是使用k_means

Posted 2023-03-12

技术标签:

【中文标题】python中的文本聚类，而不是使用k_means【英文标题】：text clustering in python other than using k_means 【发布时间】：2017-10-17 19:02:50 【问题描述】：

由于 sklearn 中的 k_means 仅使用欧几里得距离，这不是衡量文本之间“距离”或“相似性”的好方法，在 python 中我们可以使用其他替代方法来进行“文本聚类”吗？

【问题讨论】：

您可以使用 scikit-learn 中实现的任何聚类方法，请参阅 here 。例如，您可以使用hierarchical clustering algorithms 【参考方案1】：

如果您希望使用其他指标，K-Medoids 可能是一个不错的选择。它类似于 K-Means，但在其更新步骤中使用中位数，而不是平均值。这允许使用任意距离指标。

this scikit-learn 拉取请求中提供了一个不错且易于使用的实现。

【讨论】：

以上是关于python中的文本聚类，而不是使用k_means的主要内容，如果未能解决你的问题，请参考以下文章