如何使用朴素贝叶斯实现 TF_IDF 特征加权

Posted

技术标签:

【中文标题】如何使用朴素贝叶斯实现 TF_IDF 特征加权【英文标题】:How to implement TF_IDF feature weighting with Naive Bayes 【发布时间】:2011-09-11 14:28:12 【问题描述】:

我正在尝试实现用于情感分析的朴素贝叶斯分类器。我计划使用 TF-IDF 加权度量。我现在只是有点卡住了。 NB 一般使用词(特征)频率来寻找最大似然。那么如何在朴素贝叶斯中引入 TF-IDF 权重度量呢?

【问题讨论】:

那么您是否能够找到如何做到这一点的方法,因为我也遇到了同样的问题。我正在尝试搜索相同的内容,但没有得到任何确定。 【参考方案1】:

您将 TF-IDF 权重用作统计模型中的特征/预测变量。我建议使用 gensim [1] 或 scikit-learn [2] 来计算权重,然后将其传递给朴素贝叶斯拟合程序。

scikit-learn 'working with text' 教程 [3] 可能也很有趣。

[1]http://scikit-learn.org/dev/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html

[2]http://radimrehurek.com/gensim/models/tfidfmodel.html

[3]http://scikit-learn.github.io/scikit-learn-tutorial/working_with_text_data.html

【讨论】:

以上是关于如何使用朴素贝叶斯实现 TF_IDF 特征加权的主要内容,如果未能解决你的问题,请参考以下文章

在 sklearn 中补充朴素贝叶斯和加权类

如何使用火花朴素贝叶斯分类器进行 IDF 文本分类?

如何在 R 中为 tf-idf 加权 dfm 训练朴素贝叶斯分类器?

机器学习朴素贝叶斯-01

朴素贝叶斯(Naive Bayes)算法

干货 | 朴素贝叶斯python代码实现