对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度

Posted

技术标签:

【中文标题】对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度【英文标题】:Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity 【发布时间】:2015-12-19 13:52:39 【问题描述】:

我有一个 TF-IDF 特征向量数组。我想使用两种方法在数组中找到相似的向量:

    余弦相似度 k 均值聚类

使用 Scikit Learn,这个过程非常简单。

现在我想对某些特征进行加权,以便它们对结果的影响比其他特征更大。例如,我可能希望对 TF-IDF 向量的前 100 个元素进行加权,以便这些特征比其余特征更能指示相似性。

如何在我的特征向量中对某些特征进行有意义的加权?对于我上面列出的每个相似性算法,对某些特征进行加权的过程是否相同?

【问题讨论】:

【参考方案1】:

据我了解,TFIDF 矩阵中的低值意味着单词的重要性较低。因此,一种方法是降低您考虑的那些列的矩阵中的值。

scikit 中的数组是稀疏的,因此为了测试和调试,您可能需要转换为常规矩阵。我还使用 xlsxwriter 来大致了解应用 TFIDF 和 KMeans++ 时实际发生的情况(请参阅)https://www.dbc-enterprise-it-consulting.com/text-classifier/。

【讨论】:

以上是关于对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度的主要内容,如果未能解决你的问题,请参考以下文章

特征提取

如何使用非常小的数据集对特征进行加权以获得更好的聚类?

如何使用朴素贝叶斯实现 TF_IDF 特征加权

使用 TF-IDF 加权的空间向量模型实现句子相似度计算

如何使用火花朴素贝叶斯分类器进行 IDF 文本分类?

[视频] 数据超市对于文本数据挖掘的流程 机器学习如何搭建文本分类器