如何分析sklearn中tfidf矩阵的值?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何分析sklearn中tfidf矩阵的值?相关的知识,希望对你有一定的参考价值。

我在qazxsw poi的指导下使用sklearn的K Means算法进行文档聚类

这是TFIDF矩阵的计算。我已经理解了TFIDF技术背后的概念,但是当我打印这个矩阵时,矩阵是这样的:

http://brandonrose.org/clustering

这个矩阵中的值代表什么?任何为此工作过的人能帮我理解这个吗?

答案

第一列包含元组 (0, 11) 0.238317554822 (0, 34) 0.355850989305 (0, 7) 0.355850989305 (0, 21) 0.238317554822 (0, 16) 0.355850989305 (0, 35) 0.355850989305 (0, 8) 0.355850989305 (0, 17) 0.355850989305 (0, 36) 0.355850989305 (1, 11) 0.238317554822 (1, 21) 0.238317554822 (1, 23) 0.355850989305 (1, 0) 0.355850989305 (1, 24) 0.355850989305 (1, 12) 0.355850989305 (1, 22) 0.355850989305 (1, 25) 0.355850989305 (1, 13) 0.355850989305 (2, 2) 0.27430356415 (2, 18) 0.339992197465 (2, 26) 0.339992197465 (2, 39) 0.339992197465 (2, 3) 0.339992197465 (2, 19) 0.339992197465 (2, 27) 0.339992197465 (2, 4) 0.339992197465 (2, 20) 0.339992197465 (3, 2) 0.27430356415 (3, 40) 0.339992197465 (3, 9) 0.339992197465 (3, 1) 0.339992197465 (3, 5) 0.339992197465 (3, 41) 0.339992197465 (3, 10) 0.339992197465 (3, 6) 0.339992197465 (3, 42) 0.339992197465 (4, 11) 0.202877476983 (4, 21) 0.202877476983 (4, 28) 0.302932576437 (4, 31) 0.302932576437 (4, 37) 0.302932576437 (4, 14) 0.302932576437 (4, 29) 0.302932576437 (4, 32) 0.302932576437 (4, 38) 0.302932576437 (4, 15) 0.302932576437 (4, 30) 0.302932576437 (4, 33) 0.302932576437 ,其中(ind_document, ind_word)是数据集中包含的文档的索引(在您的情况下是ind_document),stringind_word对象生成的单词词典中单词的索引。

第二列包含给定TfidfVectorizer的TF-IDF值(对应于word的单词)。


UPDATE

如果你仔细观察(ind_document, ind_word)TfidfVectorizer的实现,可以看到有一个名为here的参数。默认情况下,此参数设置为norm,这是用于规范化所获数据的L2范数。

如果您不想标准化数据并将其与手动获得的结果进行比较,请将此参数更改为l2

以上是关于如何分析sklearn中tfidf矩阵的值?的主要内容,如果未能解决你的问题,请参考以下文章

使用 sklearn 计算两个不同列的单独 tfidf 分数

如何用 kmeans 计算 tfidf 矩阵中解释的方差?

如何从管道中的 sklearn TFIDF Vectorizer 返回数据帧?

sklearn : TFIDF Transformer : 如何获取文档中给定单词的 tf-idf 值

将一个 numpy 稀疏矩阵保存到文件中

SKLearn 朴素贝叶斯:在 tfidf 向量化后添加特征