朴素贝叶斯分类原理
Posted 架构师思维
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了朴素贝叶斯分类原理相关的知识,希望对你有一定的参考价值。
问题
对于一个物品预测出属于的类目?假设物品记做X,类目记做Y。
朴素贝叶斯分类原理
问题可以转换为计算物品属于不同类目的概率,取最大概率的类目作为预测的分类。
怎么计算物品属于某个类目的概率?
对物品进行分类一定要利用物品的属性,物品的属性很多,能区分物品的属性称作物品的特征。已知物品的特征,计算物品属于某个类目的概率,表示为P(类目|特征),也就是计算P(Y|X),这是一个后验概率,根据贝叶斯公式:
需要计算最大的后验概率,只需要计算出分子的最大值即可,P(Y)从样本数据中很容易计算出来,关键是P(X|Y)怎么计算,假设物品的特征之间是相互独立的,这就是朴素两个字的来历。这样一来
对于,只需要计算特征X1在某个类目中的取某个值的概率。
朴素贝叶斯分类步骤
需要注意的问题
朴素贝叶斯的假设条件:每一个属性值在给定类上面的影响是独立于其他属性的,也就是说属性与属性之间是相互独立的。
如果属性是分类变量,那么概率可以用计数的形式来加以计算;
如果属性是连续变量,那么则假设其实服从于均值为μ,方差为σ的高斯分布:
则概率可以通过上面的概率密度公式求得。
拉普拉斯估计:考虑到某一属性的某一特征的样本量为0,这样会给分类带来很大的误差,可以在每个特征的数量加1,这样有效的避免概率值为0的情况。
商品分类例子
用户发布商品的时候需要选择商品所属于的类目,类目信息在很多业务中都需要用到,前期类目的准确性是由人工审核,随着用户量的增长,每天新发布商品多达几百万,人工审核的工作量很大,所以需要通过机器学习算法对商品预测分类。作为B2B互联网电商网站,商品覆盖了全品类,类目数20000多个。
样本数据
来自网站发布到正确类目下的商品,样本数据按照7:3的比例分为两部分,一部分用于模型训练,另一份用作准确性验证。样本数据如下:
特征选择
将商品标题进行分词,去掉停用词和过滤词的词语作为商品的特征。分词后结果如下:
模型训练
模型训练成功后实际上是一维数组和二维数组,
一维数组代表每个类目出现的概率,即上面说的P(Y):
二维数组代表属性值在每个类目下的出现的概率,即P(X|Y):
商品预测
商品预测的最终结果如下:
朴素贝叶斯分类应用的场景
在考虑一个结果的概率时候,要考虑众多的属性,贝叶斯算法利用所有可能的数据来进行修正预测,如果大量的特征产生的影响较小,放在一起,组合的影响较大,适合于朴素贝叶斯分类。
缺点
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
以上是关于朴素贝叶斯分类原理的主要内容,如果未能解决你的问题,请参考以下文章