实现用于文本分类的朴素贝叶斯的对数可能性

Posted

技术标签:

【中文标题】实现用于文本分类的朴素贝叶斯的对数可能性【英文标题】:Log likelihood to implement Naive Bayes for Text Classification 【发布时间】:2011-07-23 23:42:08 【问题描述】:

我正在实现用于文本分类的朴素贝叶斯算法。我有大约 1000 个用于培训的文档和 400 个用于测试的文档。我想我已经正确地实施了培训部分,但我在测试部分感到困惑。以下是我简要介绍的内容:

在我的训练函数中:

vocabularySize= GetUniqueTermsInCollection();//get all unique terms in the entire collection

spamModelArray[vocabularySize]; 
nonspamModelArray[vocabularySize];

for each training_file
        class = GetClassLabel(); // 0 for spam or 1 = non-spam
        document = GetDocumentID();

        counterTotalTrainingDocs ++;

        if(class == 0)
                counterTotalSpamTrainingDocs++;
        

        for each term in document
                freq = GetTermFrequency; // how many times this term appears in this document?
                id = GetTermID; // unique id of the term 

                if(class = 0) //SPAM
                        spamModelArray[id]+= freq;
                        totalNumberofSpamWords++; // total number of terms marked as spam in the training docs
                else // NON-SPAM
                        nonspamModelArray[id]+= freq;
                        totalNumberofNonSpamWords++; // total number of terms marked as non-spam in the training docs
                
        //for


        for i in vocabularySize
                spamModelArray[i] = spamModelArray[i]/totalNumberofSpamWords;
                nonspamModelArray[i] = nonspamModelArray[i]/totalNumberofNonSpamWords;

        //for


        priorProb = counterTotalSpamTrainingDocs/counterTotalTrainingDocs;// calculate prior probability of the spam documents

我认为我正确理解并实施了培训部分,但我不确定我能否正确实施测试部分。在这里,我试图检查每个测试文档,并为每个文档计算 logP(spam|d) 和 logP(non-spam|d)。然后我比较这两个数量以确定类别(垃圾邮件/非垃圾邮件)。

在我的测试功能中:

vocabularySize= GetUniqueTermsInCollection;//get all unique terms in the entire collection
for each testing_file:
        document = getDocumentID;

        logProbabilityofSpam = 0;
        logProbabilityofNonSpam = 0;

        for each term in document
                freq = GetTermFrequency; // how many times this term appears in this document?
                id = GetTermID; // unique id of the term 

                // logP(w1w2.. wn) = C(wj)∗logP(wj)
                logProbabilityofSpam+= freq*log(spamModelArray[id]);
                logProbabilityofNonSpam+= freq*log(nonspamModelArray[id]);
        //for

        // Now I am calculating the probability of being spam for this document
        if (logProbabilityofNonSpam + log(1-priorProb) > logProbabilityofSpam +log(priorProb))  // argmax[logP(i|ck) + logP(ck)]
                newclass = 1; //not spam
        else
                newclass = 0; // spam
        

//for

我的问题是;我想返回每个类的概率,而不是精确的 1 和 0(垃圾邮件/非垃圾邮件)。我想看看例如newclass= 0.8684212 所以我可以稍后应用阈值。但我在这里很困惑。如何计算每个文档的概率?可以用 logProbabilities 来计算吗?

【问题讨论】:

【参考方案1】:

一组特征F1, F2, ..., Fn描述的数据属于类C,根据朴素贝叶斯概率模型,是

P(C|F) = P(C) * (P(F1|C) * P(F2|C) * ... * P(Fn|C)) / P(F1, ..., Fn)

除了 1 / P(F1, ..., Fn) 之外的所有项(对数形式)都有术语,因为您正在实现的朴素贝叶斯分类器中没有使用它。 (严格来说,MAP 分类器。)

您还必须收集特征的频率,并从中计算

P(F1, ..., Fn) = P(F1) * ... * P(Fn)

【讨论】:

感谢您的回答。假设我还收集了 P(F1, ..., Fn),现在我将计算 P(C|F),如下所示:例如对于非垃圾邮件文档:P(C|F) = logProbabilityofNonSpam + log(1-priorProb) - log(P(F1....Fn))。但是它不会仍然是对数形式而不是0到1之间的概率吗?我有点困惑。 是的,它将采用对数形式。您将不得不对其取幂。 (但要注意小的值,因为 e^x 可能会变为零)。

以上是关于实现用于文本分类的朴素贝叶斯的对数可能性的主要内容,如果未能解决你的问题,请参考以下文章

朴素贝叶斯的优缺点

机器学习:朴素贝叶斯的python实现

基于朴素贝叶斯的文本分类

使用高斯朴素贝叶斯的多类分类

使用朴素贝叶斯的文本分类

朴素贝叶斯的 nltk 词干和停用词