python中的文本聚类,而不是使用k_means
Posted
技术标签:
【中文标题】python中的文本聚类,而不是使用k_means【英文标题】:text clustering in python other than using k_means 【发布时间】:2017-10-17 19:02:50 【问题描述】:由于 sklearn 中的 k_means 仅使用欧几里得距离,这不是衡量文本之间“距离”或“相似性”的好方法,在 python 中我们可以使用其他替代方法来进行“文本聚类”吗?
【问题讨论】:
您可以使用 scikit-learn 中实现的任何聚类方法,请参阅 here 。例如,您可以使用hierarchical clustering algorithms 【参考方案1】:如果您希望使用其他指标,K-Medoids 可能是一个不错的选择。它类似于 K-Means,但在其更新步骤中使用中位数,而不是平均值。这允许使用任意距离指标。
this scikit-learn 拉取请求中提供了一个不错且易于使用的实现。
【讨论】:
以上是关于python中的文本聚类,而不是使用k_means的主要内容,如果未能解决你的问题,请参考以下文章
k_mean.fit 返回 ValueError: setting an array element with a sequence