对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度
Posted
技术标签:
【中文标题】对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度【英文标题】:Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity 【发布时间】:2015-12-19 13:52:39 【问题描述】:我有一个 TF-IDF 特征向量数组。我想使用两种方法在数组中找到相似的向量:
-
余弦相似度
k 均值聚类
使用 Scikit Learn,这个过程非常简单。
现在我想对某些特征进行加权,以便它们对结果的影响比其他特征更大。例如,我可能希望对 TF-IDF 向量的前 100 个元素进行加权,以便这些特征比其余特征更能指示相似性。
如何在我的特征向量中对某些特征进行有意义的加权?对于我上面列出的每个相似性算法,对某些特征进行加权的过程是否相同?
【问题讨论】:
【参考方案1】:据我了解,TFIDF 矩阵中的低值意味着单词的重要性较低。因此,一种方法是降低您考虑的那些列的矩阵中的值。
scikit 中的数组是稀疏的,因此为了测试和调试,您可能需要转换为常规矩阵。我还使用 xlsxwriter 来大致了解应用 TFIDF 和 KMeans++ 时实际发生的情况(请参阅)https://www.dbc-enterprise-it-consulting.com/text-classifier/。
【讨论】:
以上是关于对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度的主要内容,如果未能解决你的问题,请参考以下文章