NLTK 朴素贝叶斯分类错误
Posted
技术标签:
【中文标题】NLTK 朴素贝叶斯分类错误【英文标题】:NLTK Naive Bayes Classifies error 【发布时间】:2015-12-20 02:59:04 【问题描述】:错误信息:
Traceback(最近一次调用最后一次): 文件“/Users/ABHINAV/Documents/test2.py”,第 58 行,在 分类器 = NaiveBayesClassifier.train(trainfeats) 文件“/Library/Python/2.7/site-packages/nltk/classify/naivebayes.py”,第 194 行,在火车中 对于特征集,labeled_featuresets 中的标签: ValueError:解包的值太多 [在 17.0s 中完成,退出代码为 1]
我在尝试对一组数据实施朴素贝叶斯时遇到此错误。这是代码:
import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import movie_reviews
def word_feats(words):
return dict([(word, True) for word in words])
negids = movie_reviews.fileids('neg')
posids = movie_reviews.fileids('pos')
negfeats = [(word_feats(movie_reviews.words(fileids=[f])), 'neg') for f in negids]
posfeats = [(word_feats(movie_reviews.words(fileids=[f])), 'pos') for f in posids]
negcutoff = len(negfeats)*3/4
poscutoff = len(posfeats)*3/4
trainfeats=[('good'),('pos'),
('quick'),('pos'),
('easy'),('pos'),
('big'),('pos'),
('iterested'),('pos'),
('important'),('pos'),
('new'),('pos'),
('patient'),('pos'),
('few'),('neg'),
('bad'),('neg'),
]
test=[
('general'),('pos'),
('many'),('pos'),
('efficient'),('pos'),
('great'),('pos'),
('interested'),('pos'),
('top'),('pos'),
('easy'),('pos'),
('big'),('pos'),
('new'),('pos'),
('wonderful'),('pos'),
('important'),('pos'),
('best'),('pos'),
('more'),('pos'),
('patient'),('pos'),
('last'),('pos'),
('worse'),('neg'),
('terrible'),('neg'),
('awful'),('neg'),
('bad'),('neg'),
('minimal'),('neg'),
('incomprehensible'),('neg'),
]
classifier = NaiveBayesClassifier.train(trainfeats)
print 'accuracy:', nltk.classify.util.accuracy(classifier, test)
classifier.show_most_informative_features()
【问题讨论】:
【参考方案1】:trainfeat
变量应该是:
trainfeats=[('good':True,'quick':True,'easy':True,
'big':True,'interested':True,'important':True,
'new':True,'patient':True,'pos'),('few':True,'bad':True,'neg')]
这是 nltk 中标记特征集的正确格式。
同样,测试变量应该是:
test=[('general':True,'many':True,'efficient':True,'great':True,'interested':True,'top':True,'easy':True,'big':True,'new':True,'wonderful':True,'important':True,'best':True,'more':True,'patient':True,'last':True,'pos'),('worse':True,'terrible':True,'awful':True,'bad':True,'minimal':True,'incomprehensible':True,'neg')]
【讨论】:
【参考方案2】:TLDR
你需要这个:
trainfeats=[('good','pos'),
('quick','pos'),
...
而不是这个:
trainfeats=[('good'),('pos'),
('quick'),('pos'),
...
说明
关键错误是ValueError: too many values to unpack
在您在此行调用的NaiveBayesClassifier.train
内:
classifier = NaiveBayesClassifier.train(trainfeats)
'Too many values to unpack' 意味着程序期望在一个可迭代对象中有一定数量的值,并且它接收到的值超过了这个数量。例如,从您的错误消息中,该行引发了错误:
for featureset, label in labeled_featuresets:
这个 for 循环期望 pairs 事物在 'labeled_featuresets' 中,它会将其中的一个成员分配给 featureset
,并将一个成员分配给 label
。如果labeled_featuresets
实际上有三胞胎,例如[(1,2,3), (1,2,3)...] 那么程序不知道如何处理第三个元素,所以它会抛出错误。
这是您传递给该函数的内容,我认为它最终会以labeled_featuresets
结尾:
trainfeats=[('good'),('pos'),
('quick'),('pos'),
('easy'),('pos'),
...
您似乎正在尝试通过将列表中的项目成对缩进来创建一个元组列表(这将防止您遇到错误),但是这还不够。 Python 不会使用缩进来推断元组,只有 括号。我想这就是你想要的:
trainfeats=[('good','pos'),
('quick','pos'),
('easy','pos'),
...
每对都用括号括起来,创建一个元组列表而不是单个元素的列表。
【讨论】:
我试着定义你提到的元组,但我仍然遇到一些错误。这是我得到的: Traceback(最近一次调用):文件“Documents/test2.py”,第 28 行,在以上是关于NLTK 朴素贝叶斯分类错误的主要内容,如果未能解决你的问题,请参考以下文章
scikits learn 和 nltk:朴素贝叶斯分类器性能差异很大