朴素贝叶斯分类原理

Posted 架构师思维

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了朴素贝叶斯分类原理相关的知识,希望对你有一定的参考价值。

问题

对于一个物品预测出属于的类目?假设物品记做X,类目记做Y

朴素贝叶斯分类原理

问题可以转换为计算物品属于不同类目的概率,取最大概率的类目作为预测的分类。

怎么计算物品属于某个类目的概率?

对物品进行分类一定要利用物品的属性,物品的属性很多,能区分物品的属性称作物品的特征。已知物品的特征,计算物品属于某个类目的概率,表示为P(类目|特征),也就是计算PY|X),这是一个后验概率,根据贝叶斯公式:


需要计算最大的后验概率,只需要计算出分子的最大值即可,PY)从样本数据中很容易计算出来,关键是PX|Y)怎么计算,假设物品的特征之间是相互独立的,这就是朴素两个字的来历。这样一来

朴素贝叶斯分类原理

对于朴素贝叶斯分类原理,只需要计算特征X1在某个类目中的取某个值的概率。


朴素贝叶斯分类步骤

朴素贝叶斯分类原理

需要注意的问题

  • 朴素贝叶斯的假设条件:每一个属性值在给定类上面的影响是独立于其他属性的,也就是说属性与属性之间是相互独立的。

  • 如果属性是分类变量,那么概率可以用计数的形式来加以计算;

    如果属性是连续变量,那么则假设其实服从于均值为μ,方差为σ的高斯分布:

    朴素贝叶斯分类原理

    则概率可以通过上面的概率密度公式求得。

  • 拉普拉斯估计:考虑到某一属性的某一特征的样本量为0,这样会给分类带来很大的误差,可以在每个特征的数量加1,这样有效的避免概率值为0的情况。

商品分类例子

用户发布商品的时候需要选择商品所属于的类目,类目信息在很多业务中都需要用到,前期类目的准确性是由人工审核,随着用户量的增长,每天新发布商品多达几百万,人工审核的工作量很大,所以需要通过机器学习算法对商品预测分类。作为B2B互联网电商网站,商品覆盖了全品类,类目数20000多个。

  • 样本数据

    来自网站发布到正确类目下的商品,样本数据按照7:3的比例分为两部分,一部分用于模型训练,另一份用作准确性验证。样本数据如下:

    朴素贝叶斯分类原理

  • 特征选择

    将商品标题进行分词,去掉停用词和过滤词的词语作为商品的特征。分词后结果如下:

    朴素贝叶斯分类原理


  • 模型训练

    模型训练成功后实际上是一维数组和二维数组,

    一维数组代表每个类目出现的概率,即上面说的P(Y):

    朴素贝叶斯分类原理

    二维数组代表属性值在每个类目下的出现的概率,即P(X|Y):

  • 商品预测

    商品预测的最终结果如下:

朴素贝叶斯分类应用的场景

在考虑一个结果的概率时候,要考虑众多的属性,贝叶斯算法利用所有可能的数据来进行修正预测,如果大量的特征产生的影响较小,放在一起,组合的影响较大,适合于朴素贝叶斯分类

缺点

理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。




以上是关于朴素贝叶斯分类原理的主要内容,如果未能解决你的问题,请参考以下文章

算法朴素贝叶斯分类算法原理与实践

朴素贝叶斯:容易理解但不naive的分类模型(原理及应用)

朴素贝叶斯分类算法原理与实践

数据挖掘十大经典算法之朴素贝叶斯

朴素贝叶斯分类的原理与流程

数据挖掘:朴素贝叶斯分类算法原理与实践