使用 python 的朴素贝叶斯分类器
Posted
技术标签:
【中文标题】使用 python 的朴素贝叶斯分类器【英文标题】:Naive Bayes classifier using python 【发布时间】:2012-03-29 11:23:03 【问题描述】:我正在使用 scikit-learn 来查找文档的 Tf-idf 权重,然后使用 Naive 贝叶斯分类器对文本进行分类。但是文档中所有单词的 Tf-idf 权重都是负的,除了少数。但据我所知,负值意味着不重要的术语。那么是否有必要将整个 Tf-idf 值传递给贝叶斯分类器?如果我们只需要通过其中的几个,我们该怎么做呢?此外,与线性 SVC 相比,贝叶斯分类器的优劣程度如何?除了使用 Tf-idf 之外,还有更好的方法在文本中查找标签吗?
谢谢
【问题讨论】:
【参考方案1】:您有很多问题,但我会尽力提供帮助。
据我记忆,TF-IDF 不应该是负值。 TF 是词频(词在特定文档中出现的频率)和逆文档频率(语料库中的文档数 / 包含该词的文档数)。然后通常是对数加权。我们经常在分母上加一以避免被零除。因此,唯一一次您会得到否定的 tf*idf 是该术语是否出现在语料库的每个文档中(正如您所提到的,这对搜索不是很有帮助,因为它不添加信息)。我会仔细检查你的算法。
给定术语 t,文档 d,语料库 c:
tfidf = term freq * log(document count / (document frequency + 1))
tfidf = [# of t in d] * log([#d in c] / ([#d with t in c] + 1))
在机器学习中,朴素贝叶斯和 SVM 都是很好的工具——它们的质量会因应用程序而异,而且我做过的项目证明它们的准确性相当。朴素贝叶斯通常很容易手动破解——在尝试使用 SVM 库之前,我会先尝试一下。
我可能遗漏了一些东西,但我不太确定我确切地知道你在寻找什么——很高兴修改我的答案。
【讨论】:
首先感谢您的快速响应。那么如果取 Tf-idf 值大于零的单词,是否可以用作标签? . 您对训练贝叶斯分类器有何看法。是否有必要使用整个文档 Tf-idf 或仅使用具有较高 Tf-idf 值的单词的 Tf-idf 值来完成。 嗯,首先,文档中的大多数单词不应该是否定的。你的语料库有多大?显然,在运行之前删除“the”、“an”等停用词。不知道你所说的标签是什么意思,但如果你的意思是特征标签或类似标签,那么我认为这是一个好方法。 考虑我们找到了 1000 个文档的 tf-idf 值。有什么方法可以让我们使用这些权重来查找要分类的新文档的 tf-idf 值?。 tf*idf 基于术语文档元组,因此除非您的语料库发生更改,否则您当然可以将它们存储在 (term,docid)=>value 的字典中。【参考方案2】:我也对这个主题很感兴趣。 当我使用 baes 分类时(可能是这篇关于 baes 算法的俄罗斯文章可以帮助你http://habrahabr.ru/blogs/python/120194/)我只使用了文档的 20 个 top word。我尝试了很多价值观。在我的实验前 20 名中获得最佳结果。 我也将通常的 tf-idf 更改为:
def f(word):
idf = log10(0.5 / word.df)
if idf < 0:
idf = 0
return word.tf * idf
在这种情况下,“坏词”等于 0。
【讨论】:
这可能只是粉饰问题。 @ogrisel 指出有一个错误,这是有道理的。大多数单词不应该有负值。 不是粉饰。因为我的 wieght 词不是经典的 tf-idf。而且 it(idf) 可以是负数。 哦,好吧,如果它的类型不同的话。【参考方案3】:此错误已在 master 分支中修复。请注意,text vectorizer API 也发生了一些变化,以便更轻松地自定义标记化。
【讨论】:
有没有办法将贝叶斯分类器的值和它的词汇表保存在scikit中,这样文档分类就容易了?. 保存贝叶斯分类器是指训练后的单词概率权重。 @jvc: 你可以pickle scikit-learn 中的整个分类器对象。以上是关于使用 python 的朴素贝叶斯分类器的主要内容,如果未能解决你的问题,请参考以下文章