朴素贝叶斯分类器:每个类别的语料库大小必须相同吗?

Posted

技术标签:

【中文标题】朴素贝叶斯分类器:每个类别的语料库大小必须相同吗?【英文标题】:naive bayes classifier: does the size of corpus for each category have to be the same? 【发布时间】:2016-10-08 13:51:18 【问题描述】:

我正在为两个类别(pos 和 neg)构建一个朴素贝叶斯分类器。我希望分类器将包含某些单词的句子分类为 pos,如果不包含这些单词,则将其分类为 neg。

我的 pos 语料库是 518 个包含这些词的句子。我的问题:neg 的语料库必须有多大?

在 NLTK 的 movie_reviews 语料库中,两个类别包含相同数量的文本文件。然而,那个分类器也学习了否定词,不是吗?我真的只关心分类器识别某些属于 pos 类别的词,我不关心 neg 类别中的词。

那么,两个语料库都包含 518 个文本文件重要吗?

【问题讨论】:

【参考方案1】:

两个类别的大小不必相同。

【讨论】:

感谢您的回复。你在某个地方有这个来源吗?或者你是怎么确定的?

以上是关于朴素贝叶斯分类器:每个类别的语料库大小必须相同吗?的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark 中朴素贝叶斯分类器的阈值是啥?

11.分类与监督学习,朴素贝叶斯分类算法

11.分类与监督学习,朴素贝叶斯分类算法

使用朴素贝叶斯分类器过滤垃圾邮件

如何让朴素贝叶斯分类器工作?

分类与监督学习,朴素贝叶斯分类算法