具有二进制数据的朴素贝叶斯分类器

Posted

技术标签:

【中文标题】具有二进制数据的朴素贝叶斯分类器【英文标题】:Naive bayes classifier with binary data 【发布时间】:2016-08-08 12:28:35 【问题描述】:

我熟悉对具有连续和分类输入且类变量为二进制的朴素贝叶斯分类器的理解。但是它如何用于二进制数据输入呢?

 Example: (0,0,-), (1,1,+)

符号是类变量。

【问题讨论】:

【参考方案1】:

有不同类型的朴素贝叶斯分类器:

    高斯:用于分类,假设特征服从正态分布。

    多项式:用于离散计数。例如,假设我们有一个文本分类问题。在这里,我们可以考虑更进一步的伯努利试验,而不是“文档中出现的单词”,我们有“计算文档中单词出现的频率”,您可以将其视为“观察到结果数 x_i 的次数在 n 次试验中”。

    伯努利:如果您的特征向量是二元的(即零和一),二项式模型很有用。一种应用是使用“词袋”模型进行文本分类,其中 1 和 0 分别是“单词出现在文档中”和“单词没有出现在文档中”。

所以在这里,伯努利将工作并将它们分类为 0 或 1。

工作详情见:https://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html

【讨论】:

【参考方案2】:

二进制数据本质上与分类数据相同,不是吗?

它有类别01

【讨论】:

那么流程是一样的吗? 实际上二元决策是朴素贝叶斯所做的唯一事情,您可以将所有内容(分类、通过阈值化的数值)简化为二元决策。

以上是关于具有二进制数据的朴素贝叶斯分类器的主要内容,如果未能解决你的问题,请参考以下文章

贝叶斯分类器(3)朴素贝叶斯分类器

Weka机器学习:如何解释朴素贝叶斯分类器?

动态朴素贝叶斯分类器和朴素贝叶斯分类器有啥区别

NLTK 的朴素贝叶斯分类器是不是适合商业应用?

“移花接木”(朴素贝叶斯分类器)

使用朴素贝叶斯分类器进行意见挖掘