对 TF-IDF 特征向量中的特定特征进行加权，用于 k-means 聚类和余弦相似度

Posted 2023-03-12

技术标签:

【中文标题】对 TF-IDF 特征向量中的特定特征进行加权，用于 k-means 聚类和余弦相似度【英文标题】：Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity 【发布时间】：2015-12-19 13:52:39 【问题描述】：

我有一个 TF-IDF 特征向量数组。我想使用两种方法在数组中找到相似的向量：

余弦相似度 k 均值聚类

使用 Scikit Learn，这个过程非常简单。

现在我想对某些特征进行加权，以便它们对结果的影响比其他特征更大。例如，我可能希望对 TF-IDF 向量的前 100 个元素进行加权，以便这些特征比其余特征更能指示相似性。

如何在我的特征向量中对某些特征进行有意义的加权？对于我上面列出的每个相似性算法，对某些特征进行加权的过程是否相同？

【问题讨论】：

【参考方案1】：

据我了解，TFIDF 矩阵中的低值意味着单词的重要性较低。因此，一种方法是降低您考虑的那些列的矩阵中的值。

scikit 中的数组是稀疏的，因此为了测试和调试，您可能需要转换为常规矩阵。我还使用 xlsxwriter 来大致了解应用 TFIDF 和 KMeans++ 时实际发生的情况（请参阅）https://www.dbc-enterprise-it-consulting.com/text-classifier/。

【讨论】：

以上是关于对 TF-IDF 特征向量中的特定特征进行加权，用于 k-means 聚类和余弦相似度的主要内容，如果未能解决你的问题，请参考以下文章