如何确定 k 均值何时收敛于 tf idf?
Posted
技术标签:
【中文标题】如何确定 k 均值何时收敛于 tf idf?【英文标题】:How to figure out when k means converges for tf idf? 【发布时间】:2016-12-12 07:43:08 【问题描述】:我对处理文本数据还很陌生。
我有一个包含大约 300,000 个唯一产品名称的数据框,我正在尝试使用 k 方法将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 将名称向量化并转换为 tf-idf 矩阵。
将其转换为稀疏矩阵后,我将 k 均值与 5-10 个集群拟合,但我不知道我是否正在收敛。
我该如何解决这个问题?
【问题讨论】:
如果内存服务正确,如果它不收敛,应该会打印出一个警告 【参考方案1】:根据the source,属性n_iter_
应该包含k-means 迭代次数。如果n_iter_ < max_iter
,则算法收敛在给定的容差内。
如果您想要完成的是确定最佳集群数量,您可以使用 elbow method 和 inertia_
属性。
【讨论】:
以上是关于如何确定 k 均值何时收敛于 tf idf?的主要内容,如果未能解决你的问题,请参考以下文章
对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度
Scikit Learn K-means Clustering & TfidfVectorizer:如何将具有最高 tf-idf 分数的前 n 项传递给 k-means