如何确定 k 均值何时收敛于 tf idf?

Posted

技术标签:

【中文标题】如何确定 k 均值何时收敛于 tf idf?【英文标题】:How to figure out when k means converges for tf idf? 【发布时间】:2016-12-12 07:43:08 【问题描述】:

我对处理文本数据还很陌生。

我有一个包含大约 300,000 个唯一产品名称的数据框,我正在尝试使用 k 方法将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 将名称向量化并转换为 tf-idf 矩阵。

将其转换为稀疏矩阵后,我将 k 均值与 5-10 个集群拟合,但我不知道我是否正在收敛。

我该如何解决这个问题?

【问题讨论】:

如果内存服务正确,如果它不收敛,应该会打印出一个警告 【参考方案1】:

根据the source,属性n_iter_ 应该包含k-means 迭代次数。如果n_iter_ < max_iter,则算法收敛在给定的容差内。

如果您想要完成的是确定最佳集群数量,您可以使用 elbow method 和 inertia_ 属性。

【讨论】:

以上是关于如何确定 k 均值何时收敛于 tf idf?的主要内容,如果未能解决你的问题,请参考以下文章

如何执行 k 意味着从 Gensim TF IDF 值聚类

对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度

Scikit Learn K-means Clustering & TfidfVectorizer:如何将具有最高 tf-idf 分数的前 n 项传递给 k-means

如何使 TF-IDF 矩阵密集?

K-Means VS K-模式? (文本聚类)

我如何可视化用于 kmeans 聚类的 tf-idf 向量的数据点?