朴素贝叶斯分类器:每个类别的语料库大小必须相同吗?
Posted
技术标签:
【中文标题】朴素贝叶斯分类器:每个类别的语料库大小必须相同吗?【英文标题】:naive bayes classifier: does the size of corpus for each category have to be the same? 【发布时间】:2016-10-08 13:51:18 【问题描述】:我正在为两个类别(pos 和 neg)构建一个朴素贝叶斯分类器。我希望分类器将包含某些单词的句子分类为 pos,如果不包含这些单词,则将其分类为 neg。
我的 pos 语料库是 518 个包含这些词的句子。我的问题:neg 的语料库必须有多大?
在 NLTK 的 movie_reviews 语料库中,两个类别包含相同数量的文本文件。然而,那个分类器也学习了否定词,不是吗?我真的只关心分类器识别某些属于 pos 类别的词,我不关心 neg 类别中的词。
那么,两个语料库都包含 518 个文本文件重要吗?
【问题讨论】:
【参考方案1】:两个类别的大小不必相同。
【讨论】:
感谢您的回复。你在某个地方有这个来源吗?或者你是怎么确定的?以上是关于朴素贝叶斯分类器:每个类别的语料库大小必须相同吗?的主要内容,如果未能解决你的问题,请参考以下文章