使用 TextBlob 的朴素贝叶斯文本分类:当添加更多样本量时,每个实例都预测为负数
Posted
技术标签:
【中文标题】使用 TextBlob 的朴素贝叶斯文本分类:当添加更多样本量时,每个实例都预测为负数【英文标题】:Naive Bayes text classification using TextBlob: every instance predicted as negative when adding more sample size 【发布时间】:2014-04-04 20:12:06 【问题描述】:我使用朴素贝叶斯模型将文档分类为正标签和负标签。对于大约 72 个文档的小型平衡数据集大小,它似乎工作正常。但是当我添加更多带有负标签的文档时,分类器将所有内容预测为负。
我将我的数据集分成 80% 的训练集和 20% 的测试集。添加更多带有负面标签的文档肯定会使数据集倾斜。是否是偏度使分类器将每个测试文档都预测为负数?我正在使用 Navive Bayes 模型的 TextBlob/nltk 实现。
有什么想法吗?
【问题讨论】:
【参考方案1】:是的,可能是您的数据集偏向于您的分类器。如果没有非常强的信号告诉分类器选择哪个类,那么选择最流行的类(在您的情况下为负数)是有意义的。您是否尝试过绘制类分布与准确性的关系图?另一件要尝试的事情是k-fold validation,这样您就不会偶然得出有偏见的 80-20 训练-测试分割。
【讨论】:
是的,我为不同的类分布运行了 5 次。当我的训练数据集中负实例占主导地位时,我观察到假负预测的增加。谢谢。以上是关于使用 TextBlob 的朴素贝叶斯文本分类:当添加更多样本量时,每个实例都预测为负数的主要内容,如果未能解决你的问题,请参考以下文章