Python中计算TF-IDF(scikit-learn)

Posted 人生苦短,我用Python

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python中计算TF-IDF(scikit-learn)相关的知识,希望对你有一定的参考价值。

scikit-learn包下有计算TF-IDF的api,其效果也很不错。首先得安装Scikit-clearn

Scikit-learn 依赖:

  • Python (>= 2.7 or >= 3.4),
  • NumPy (>= 1.8.2),
  • SciPy (>= 0.13.3).
pip install scikit-learn

 

计算TF-IDF

  scikit-learn包进行TF-IDF分词权重计算主要用到了两个类:CountVectorizer和TfidfTransformer。其中

  CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在第i个文本下的词频。即各个词语出现的次数,通过get_feature_names()可看到所有文本的关键字,通过toarray()可看到词频矩阵的结果。

 

以上是关于Python中计算TF-IDF(scikit-learn)的主要内容,如果未能解决你的问题,请参考以下文章

在python中使用sklearn为n-gram计算TF-IDF

Python:在 Pandas 中计算两列之间的 tf-idf 余弦相似度时出现 MemoryError

在 python 2.7 中计算 TF-IDF(三行代码)。这段代码有效吗?

TF-IDF计算过程

Python Scikit-learn:TF-IDF 中的空词汇

使用不同的方法计算TF-IDF值