机器学习之朴素贝叶斯简介
Posted 未央夜色
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习之朴素贝叶斯简介相关的知识,希望对你有一定的参考价值。
综述
适用于标称型数据的监督学习方法。NB本质是个分类问题,根据样例属于哪个类的概率的大小判断样本属于哪个类。
朴素贝叶斯有两个基本条件:朴素和贝叶斯定理
- 朴素:
朴素指的是特征之间的相互独立性假设,就是特征1和特征2之间发生的概率相互不受影响。特征1发生与否和特征2无关。
另外,每个特征同等重要。 - 贝叶斯定理:
算法流程
统计各个特征分类的出现情况,计算概率=>训练模型。
NB中常用的几个模型:
高斯模型
有些特征可能是连续型变量,比如说人的身高,物体的长度,这些特征可以转换成离散型的值。通过高斯分布,可以把连续的变量转换成标称型变量。
比如连续型的变量,设定一些“标杆”,将其离散化。
多项式模型
该模型常用于文本分类,特征是单词,值是单词的出现次数。
垃圾邮件过滤系统:根据某些单词在邮件中的出现情况,判断该邮件是否是垃圾邮件。根据训练集中垃圾邮件中出现这些单词的情况判断。
邮件向量化。
字典大小是N,邮件中单词个数是i,wi代表第i个单词
根据邮件内的单词,把邮件映射成维度是N的向量x,xi=1代表单词wi在邮件中出现过,否则(xi=0)就是没出现过。
判定垃圾邮件:如果重要邮件的优先级高于垃圾邮件,可以设定一个阀值(倍数)只有当计算的结果大于这个倍数,才判定他是垃圾邮件。
伯努利模型
更适合处理二分(boolean)模型
上述的贝叶斯定理从机器学习的角度来解释就是:
p(分类|特征1) = p(特征2|分类)*p(分类)/p(特征)
- p(分类|特征1) 输入样例的分类和特征1(输入样本中特征的总体)的情况,目的是根据特征判定样例属于哪个类
- p(特征2|分类) 每个分类中特征(训练样本中特征的总体),根据朴素贝叶斯的条件独立性理论,可以由各个部分相乘获得
- p(分类) 训练样本中取得每个分类的概率
- p(特征) 当前样本中每个特征值取得到的概率
这里需要考虑:当输入样本中的特征不在训练样本中的时候,如何处理
一般采用平滑优化处理
评价
- 适用于标称型数据
- 常用于文本分类
- 有着非常坚实的数学基础,效果非常好
- 缺点是不能处理特征之间的相互影响
优化
某些情况下,样本中出现训练集中没有的特征,这些特征在训练集上的概率为0,这样p(特征|分类)的=0,连乘的结果一定是0,显然和事实不符合。这就是先验概率为0的情况。这时候会影响后验概率的计算,解决办法就是贝叶斯估计。
在随机变量各个取值上赋。当值为1的时候就是拉普拉斯优化。
拉普拉斯优化:
- 先验概率
- 分子 + 1,分母 + 缺失特征可能的取值个数。
- 条件概率
- 分子 + 1,分母 + 当前条件下,特征可能取到的值的个数。
以上是关于机器学习之朴素贝叶斯简介的主要内容,如果未能解决你的问题,请参考以下文章