机器学习之朴素贝叶斯简介

Posted 2022-12-09 未央夜色

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习之朴素贝叶斯简介相关的知识，希望对你有一定的参考价值。

综述

适用于标称型数据的监督学习方法。NB本质是个分类问题，根据样例属于哪个类的概率的大小判断样本属于哪个类。
朴素贝叶斯有两个基本条件：朴素和贝叶斯定理

统计各个特征分类的出现情况，计算概率=>训练模型。

NB中常用的几个模型：

有些特征可能是连续型变量，比如说人的身高，物体的长度，这些特征可以转换成离散型的值。通过高斯分布，可以把连续的变量转换成标称型变量。

比如连续型的变量，设定一些“标杆”，将其离散化。

该模型常用于文本分类，特征是单词，值是单词的出现次数。

垃圾邮件过滤系统：根据某些单词在邮件中的出现情况，判断该邮件是否是垃圾邮件。根据训练集中垃圾邮件中出现这些单词的情况判断。

邮件向量化。
字典大小是N，邮件中单词个数是i，wi代表第i个单词
根据邮件内的单词，把邮件映射成维度是N的向量x，xi=1代表单词wi在邮件中出现过，否则（xi=0）就是没出现过。

判定垃圾邮件：如果重要邮件的优先级高于垃圾邮件，可以设定一个阀值（倍数）只有当计算的结果大于这个倍数，才判定他是垃圾邮件。

更适合处理二分（boolean）模型

上述的贝叶斯定理从机器学习的角度来解释就是：
p(分类|特征1) = p(特征2|分类)*p(分类)/p(特征)

这里需要考虑：当输入样本中的特征不在训练样本中的时候，如何处理
一般采用平滑优化处理

某些情况下，样本中出现训练集中没有的特征，这些特征在训练集上的概率为0，这样p(特征|分类)的=0，连乘的结果一定是0，显然和事实不符合。这就是先验概率为0的情况。这时候会影响后验概率的计算，解决办法就是贝叶斯估计。
在随机变量各个取值上赋。当值为1的时候就是拉普拉斯优化。

拉普拉斯优化：

以上是关于机器学习之朴素贝叶斯简介的主要内容，如果未能解决你的问题，请参考以下文章