大数据统计贝叶斯分类方法

Posted 大数据观察

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据统计贝叶斯分类方法相关的知识,希望对你有一定的参考价值。

大数据观察

了解大数据,关注大数据观察吧!




每个想了解最新大数据资讯的人,都关注了我

文 / 数据君


贝叶斯分类方法是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。


【大数据统计】贝叶斯分类方法


比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。

贝叶斯分类方法是基于贝叶斯定理的,已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。

贝叶斯定理公式如下:


【大数据统计】贝叶斯分类方法


其中X表示n个属性的测量描述;H为某种假设,比如假设某观察值X属于某个特定的类别C;

对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。

因为P(H|X)是后验概率,所以又称其为在条件X下,H的后验概率。


举例来说,假设数据属性仅限于用教育背景和收入来描述顾客,而X是以为硕士学历,收入10万元的顾客。

假定H表示假设我们的顾客将购买苹果手机,则P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;

相反,P(X|H)则表示如果已知顾客将购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;

而P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。

从上面的介绍可见,相比于先验概率P(H),后验概率P(H|X)基于了更多的信息(比如顾客的信息属性),而P(H)是独立于X的。


贝叶斯定理是朴素贝叶斯分类法的基础,如果给定数据集里有M个分类类别,通过朴素贝叶斯分类法,可以预测给定观察值是否属于具有最高后验概率的特定类别,也就是说,朴素贝叶斯分类方法预测X属于类别C时,表示当且仅当:


【大数据统计】贝叶斯分类方法


此时如果最大化P(Ci|X),其P(Ci|X)最大的类Ci被称为最大后验假设,

根据贝叶斯定理:


【大数据统计】贝叶斯分类方法


可知,由于P(X)对于所有的类别是均等的,因此只需要P(X|Ci)P(Ci)取最大即可。

为了预测一个未知样本X的类别,可对每个类别Ci估算相应的P(X|Ci)P(Ci)。样本X归属于类别Ci,当且仅当P(Ci|X)P(Cj|X)1jmji贝叶斯分类方法在数据化运营实践中主要用于分类问题的归类等应用场景。




主题 |贝叶斯分类方法

插图 | 网络来源




作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删


“嘿,长按二维码,跟我一起有趣”

我想给你一个理由 继续面对这操蛋的生活

以上是关于大数据统计贝叶斯分类方法的主要内容,如果未能解决你的问题,请参考以下文章

贝叶斯分类算法(上):无处不在的分类问题

贝叶斯分类器(3)朴素贝叶斯分类器

基于概率论的分类方法:朴素贝叶斯

贝叶斯分类器(1)贝叶斯决策论概述、贝叶斯和频率、概率和似然

贝叶斯定理(贝叶斯分类)

朴素贝叶斯分类垃圾短信和R实现