性能:提高朴素贝叶斯分类器的准确性

Posted

技术标签:

【中文标题】性能:提高朴素贝叶斯分类器的准确性【英文标题】:Performance: Improve Accuracy of a Naive Bayes Classifier 【发布时间】:2018-01-13 08:48:14 【问题描述】:

我正在开发一个简单的朴素贝叶斯文本分类器,它使用布朗语料库作为测试和训练数据。到目前为止,在没有任何预处理的情况下使用简单方法时,我的准确率达到了 53%。为了改进我的分类器,我添加了一些预处理(停用词、词形还原、词干提取、后置标记),但我的表现似乎变得更糟(11%)。我究竟做错了什么? 我刚开始使用 Python,所以我很感谢我能得到的任何帮助。

import nltk, random

from nltk.corpus import brown, stopwords
from nltk.stem.porter import PorterStemmer

documents = [(list(brown.words(fileid)), category)
        for category in brown.categories()
        for fileid in brown.fileids(category)]

random.shuffle(documents)

stop = set(stopwords.words('english'))


without_stop = [w for w in brown.words() if w not in stop] 

lowercase = [w.lower() for w in without_stop] # lowercase


porter = PorterStemmer()
stemmed = [porter.stem(w) for w in lowercase] 

wnl = nltk.WordNetLemmatizer()
lemmatized = [wnl.lemmatize(w) for w in stemmed] 
tagged = nltk.pos_tag(lemmatized) 


all_words = nltk.FreqDist(tagged) 

word_features = list(all_words.keys())[:2000]

def document_features(document):
    document_words = set(document)
    features = 
    for word in word_features:
       features['contains()'.format(word)] = (word in document_words)
    return features


featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]

classifier = nltk.NaiveBayesClassifier.train(train_set)

print(nltk.classify.accuracy(classifier, test_set))

【问题讨论】:

【参考方案1】:

也许我遗漏了一些东西,但我无法解决您试图解决的分类问题。

您正在随机排列文档,然后在使用来自词干、post-tagging 等的大量额外数据丰富每个文档之后,将这些文档拆分为测试集和训练集。

拆分如何遵循类之间的划分?您在纯文本上获得的结果更好,因为问题空间的等级要小得多(没有其他功能会爆炸问题空间的大小)。因此,对于相对较小的布朗语料库,分类器可以拆分问题。

陈述您的分类问题并调整特征。然后编码。

【讨论】:

以上是关于性能:提高朴素贝叶斯分类器的准确性的主要内容,如果未能解决你的问题,请参考以下文章

提高准确性朴素贝叶斯分类器

sklearn:朴素贝叶斯分类器的准确性低

如何在垃圾邮件过滤中嵌入带有朴素贝叶斯分类器的关联规则?

朴素贝叶斯分类器

如何生成混淆矩阵并找到朴素贝叶斯分类器的错误分类率?

贝叶斯分类器(3)朴素贝叶斯分类器