机器学习之朴素贝叶斯简介

Posted 未央夜色

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习之朴素贝叶斯简介相关的知识,希望对你有一定的参考价值。

综述

适用于标称型数据的监督学习方法。NB本质是个分类问题,根据样例属于哪个类的概率的大小判断样本属于哪个类。
朴素贝叶斯有两个基本条件:朴素和贝叶斯定理

  • 朴素:
    朴素指的是特征之间的相互独立性假设,就是特征1和特征2之间发生的概率相互不受影响。特征1发生与否和特征2无关。
    另外,每个特征同等重要。
  • 贝叶斯定理:

算法流程

统计各个特征分类的出现情况,计算概率=>训练模型。

NB中常用的几个模型:

高斯模型

有些特征可能是连续型变量,比如说人的身高,物体的长度,这些特征可以转换成离散型的值。通过高斯分布,可以把连续的变量转换成标称型变量。

比如连续型的变量,设定一些“标杆”,将其离散化。

多项式模型

该模型常用于文本分类,特征是单词,值是单词的出现次数。

垃圾邮件过滤系统:根据某些单词在邮件中的出现情况,判断该邮件是否是垃圾邮件。根据训练集中垃圾邮件中出现这些单词的情况判断。

邮件向量化。
字典大小是N,邮件中单词个数是i,wi代表第i个单词
根据邮件内的单词,把邮件映射成维度是N的向量x,xi=1代表单词wi在邮件中出现过,否则(xi=0)就是没出现过。

判定垃圾邮件:如果重要邮件的优先级高于垃圾邮件,可以设定一个阀值(倍数)只有当计算的结果大于这个倍数,才判定他是垃圾邮件。

伯努利模型

更适合处理二分(boolean)模型

上述的贝叶斯定理从机器学习的角度来解释就是:
p(分类|特征1) = p(特征2|分类)*p(分类)/p(特征)

  • p(分类|特征1) 输入样例的分类和特征1(输入样本中特征的总体)的情况,目的是根据特征判定样例属于哪个类
  • p(特征2|分类) 每个分类中特征(训练样本中特征的总体),根据朴素贝叶斯的条件独立性理论,可以由各个部分相乘获得
  • p(分类) 训练样本中取得每个分类的概率
  • p(特征) 当前样本中每个特征值取得到的概率

这里需要考虑:当输入样本中的特征不在训练样本中的时候,如何处理
一般采用平滑优化处理

评价

  • 适用于标称型数据
  • 常用于文本分类
  • 有着非常坚实的数学基础,效果非常好
  • 缺点是不能处理特征之间的相互影响

优化

某些情况下,样本中出现训练集中没有的特征,这些特征在训练集上的概率为0,这样p(特征|分类)的=0,连乘的结果一定是0,显然和事实不符合。这就是先验概率为0的情况。这时候会影响后验概率的计算,解决办法就是贝叶斯估计。
在随机变量各个取值上赋。当值为1的时候就是拉普拉斯优化。

拉普拉斯优化:

  • 先验概率
    • 分子 + 1,分母 + 缺失特征可能的取值个数。
  • 条件概率
    • 分子 + 1,分母 + 当前条件下,特征可能取到的值的个数。

以上是关于机器学习之朴素贝叶斯简介的主要内容,如果未能解决你的问题,请参考以下文章

机器学习之朴素贝叶斯

机器学习之朴素贝叶斯(分类)

机器学习之朴素贝叶斯分类

机器学习之朴素贝叶斯

机器学习之朴素贝叶斯分类

机器学习--机器学习之朴素贝叶斯从初始到应用