关于输入几个植物特征的智能识别系统的贝叶斯网络公式
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于输入几个植物特征的智能识别系统的贝叶斯网络公式相关的知识,希望对你有一定的参考价值。
最近刚刚开始接触贝叶斯网络, 很多公式都还是半解的。 我正在编制一个让用户输入野生植物的几个特征 比如树叶的形状 根的长短等等 推测这个野生植物的名称。 我是准备在数据库里编好每种植物的特征 然后用用户的输入去挨个比对, 最终用贝叶斯网络算出可能性最高的数种植物列出。下面的是系统的运行方式
根形状 根颜色 叶形状 茎颜色
植物1 A1 B2 C3 D4
植物2 A2 B2 C3 D2
植物3 A2 B3 C2 D2
每种植物属性有不等的性状 依次为a1 a2 a3 等等
之前刚刚接触贝叶斯 实在有些难以理解 我理解为 如果每项植物属性有不同的选择 每种选择的可能性为 1/项数 也就是如果叶子有四种颜色 每种颜色的可能性为1/4 为0.25
当用户输入 准备识别的信息为 A1 B2 C2 D4时 系统会挨个对比植物的属性
如果有此项就把它的可能性带入公式 如果没有此项就空为零 然后算出这个植物的可能性。 弄了半天搞出一个公式为 P(all)=(PA*PB*PC*PD)/(PA*PB*PC*PD+(1-PA)*(1-PB)*(1-PC)*(1-PD)) 这是我并未完全理解贝叶斯网络硬带进公式 而且如果某一项是空 整个式子就变为零 根本没意义 希望大哥们不要笑我 我也希望能好好理解透彻一下。
如果用贝叶斯算法 这个公式会正确的应该什么样子的请各位大哥给小弟解释一下。万分感谢
请各位高人 看看我的这种情况, 用户输入几个植物的特征(叶子颜色,叶子形状,。。。 共七项,每项拥有三只五个选项供用户选择) 系统用贝叶斯网络找出数据库中最有可能的植物(数据库每种植物已经编好他应该有的特征)。
具体需要用到哪些贝叶斯理论跟算法 具体的公式跟解释一下。 高分送给那位大哥,并给予万分感谢 。小弟我在线等。
朴素贝叶斯分类[2]假定了一个属性值对给定类的影响独立于其它属性的值,这一假定称作类条件独立。
设定数据样本用一个 n 维特征向量X=x1,x2,,xn表示,分别描述对n 个属性A1,A2,,An样本的 n 个度量。假定有m个类 C1,C2,,Cm 。给定一个未知的数据样本 X(即没有类标号),朴素贝叶斯分类分类法将预测 X 属于具有最高后验概率(条件 X 下)的类,当且仅当P(Ci | X)> P(Cj | X),1≤j≤m,j≠i 这样,最大化P(Ci | X)。其中P(Ci | X)最大类Ci 称为最大后验假定,其原理为贝叶斯定理:
公式(1)
由于P(X) 对于所有类为常数,只需要P(X | Ci)P(Ci)最大即可。并据此对P(Ci| X)最大化。否则,最大化P(X | Ci)P(Ci)。如果给定具有许多属性的数据集,计算P(X | Ci)P(Ci)的开销可能非常大。为降低计算P(X| Ci )的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系,这样,
公式(2)
概率,可以由训练样本估值:
(1) 如果Ak是分类属性,则P(xk|Ci)=sik/si其中sik是Ak上具有值xk的类Ci的训练样本数,而si是Ci中的训练样本数。
(2) 如果Ak是连续值属性,则通常假定该属性服从高斯分布。因而
公式(3)
其中,给定类Ci的训练样本属性Ak的值, 是属性Ak的高斯密度函数,而 分别为平均值和标准差。
朴素贝叶斯分类算法(以下称为NBC)具有最小的出错率。然而,实践中并非如此,这是由于对其应用假定(如类条件独立性)的不确定性,以及缺乏可用的概率数据造成的。主要表现为:
①不同的检测属性之间可能存在依赖关系,如protocol_type,src_bytes和dst_bytes三种属性之间总会存在一定的联系;
②当连续值属性分布是多态时,可能产生很明显的问题。在这种情况下,考虑分类问题涉及更加广泛,或者我们在做数据分析时应该考虑另一种数据分析。
后一种方法我们将在以下章节详细讨论。
3 朴素贝叶斯的改进:核密度估计
核密度估计是一种普便的朴素贝叶斯方法,主要解决由每个连续值属性设为高斯分布所产生的问题,正如上一节所提到的。在[3]文中,作者认为连续属性值更多是以核密度估计而不是高斯估计。
朴素贝叶斯核密度估计分类算法(以下称K-NBC)十分类似如NBC,除了在计算连续属性的概率 时:NBC是使用高斯密度函数来评估该属性,而K-NBC正如它的名字所说得一样,使用高斯核密度函数来评估属性。它的标准核密度公式为
公式(4)
其中h=σ 称为核密度的带宽,K=g(x,0,1) ,定义为非负函数。这样公式(4)变形为公式(5)
公式(5)
在K-NBC中采用高斯核密度为数据分析,这是因为高斯密度有着更理想的曲线特点。图1说明了实际数据的概率分布更接近高斯核密度曲线。
图1 两种不同的概率密度对事务中数据的评估,其中黑线代表高斯密度,虚线为核估计密度并有两个不同值的带宽朴素贝叶斯算法在计算μc和σc时,只需要存储观测值xk的和以及他们的平方和,这对一个正态分布来说是已经足够了。而核密度在训练过程中需要存储每一个连续属性的值(在学习过程中,对名词性属性只需要存储它在样本中的频率值,这一点和朴素贝叶斯算法一样)。而为事例分类时,在计算连续值属性的概率 时,朴素贝叶斯算法只需要评估g一次,而核密度估计算法需要对每个c类中属性X每一个观察值进行n次评估,这就增加计算存储空间和时间复杂度,表1中对比了两种方法的时间复杂度和内存需求空间。
4 实验研究与结果分析
本节的目标是评价我们提出核密度评估分类算法对入侵审计数据分类的效果,主要从整体检测率、检测率和误检率上来分析。
表1 在给定n条训练事务和m个检测属性条件下,
NBC和K-NBC的算法复杂度
朴素贝叶斯 核密度
时间 空间 时间 空间
具有n条事务的训练数据 O(nm) O(m) O(nm) O(nm)
具有q条事务的测试数据 O(qm) O(qnm)
4.1 实验建立
在实验中,我们使用NBC与K-NBC进行比较。另观察表1两种算法的复杂度,可得知有效的减少检测属性,可以提高他们的运算速度,同时删除不相关的检测属性还有可以提高分类效率,本文将在下一节详细介绍对称不确定方法[4]如何对入侵审计数据的预处理。我们也会在实验中进行对比分析。
我们使用WEKA来进行本次实验。采用 KDDCUP99[5]中的数据作为入侵检测分类器的训练样本集和测试样本集,其中每个记录由41个离散或连续的属性(如:持续时间,协议类型等)来描述,并标有其所属的类型(如:正常或具体的攻击类型)。所有数据分类23类,在这里我们把这些类网络行为分为5大类网络行为(Normal、DOS、U2R、R2L、Probe)。
在实验中,由于KDDCUP99有500多万条记录,为了处理的方便,我们均匀从kddcup.data.gz 中按照五类网络行为抽取了5万条数据作为训练样本集,并把他们分成5组,每组数据为10000条,其中normal数据占据整组数据中的98.5%,这一点符合真实环境中正常数据远远大于入侵数据的比例。我们首
先检测一组数据中只有同类的入侵的情况,共4组数据(DOS中的neptune,Proble中的Satan,U2R中的buffer_ overflow,R2l中的guess_passwd),再检测一组数据中有各种类型入侵数据的情况。待分类器得到良好的训练后,再从KDD99数据中抽取5组数据作为测试样本,分别代表Noraml-DOS,Normal-Probe,Normal-U2R,Normal-R2L,最后一组为混后型数据,每组数据为1万条。
4.2 数据的预处理
由于朴素贝叶斯有个假定,即假定所有待测属性对给定类的影响独立于其他属性的值,然而现实中的数据不总是如此。因此,本文引入对称不确定理论来对数据进行预处理,删除数据中不相关的属性。
对称不确定理论是基于信息概念论,首先我们先了解一下信息理论念,属性X的熵为:
公式(6)
给定一个观察变量Y,变量X的熵为:
公式(7)
P(xi )是变量X所有值的先验概率,P(xi|yi )是给定观察值Y,X的后验概率。这些随着X熵的降低反映在条件Y下,X额外的信息,我们称之为信息增益,
公式(8)
按照这个方法,如果IG(X|Y)>IG(X|Y),那么属性Y比起属性Z来,与属性X相关性更强。
定理:对两个随机变量来说,它们之间的信息增益是对称的。即
公式(9)
对测量属性之间相关性的方法来说,对称性是一种比较理想的特性。但是在计算有很多值的属性的信息增益时,结果会出现偏差。而且为了确保他们之间可以比较,必须使这些值离散化,同样也会引起偏差。因此我们引入对称不确定性,
公式(10)
通过以下两个步骤来选择好的属性:
①计算出所有被测属性与class的SU值,并把它们按降序方式排列;
②根据设定的阈值删除不相关的属性。
最后决定一个最优阈值δ,这里我们通过分析NBC和K-NBC计算结果来取值。
4.3 实验结果及分析
在试验中,以记录正确分类的百分比作为分类效率的评估标准,表2为两种算法的分类效率。
表2 对应相同入侵类型数据进行检测的结果
数据集
算法 DOS
(neptune) Proble
(satan) R2L
( guess_passwd) U2R
(buffer_overflow)
检测率 误检率 整体检测率 检测率 误检率 整体检测率 检测率 误检率 整体检测率 检测率 误检率 整体检测率
NBC 99.5 0.2 99.79 98.3 0.1 99.84 97.3 0.8 99.2 95 1.8 98.21
K-NBC 99.5 0.2 99.96 98.3 0 99.96 97.3 0.2 99.81 71 0.1 99.76
SU+NBC 99.5 0 99.96 98.3 0.1 99.85 98 0.7 99.24 9 1.1 98.84
SU+K-NBC 99.5 0 99.96 98.3 0 99.96 98.7 0.2 99.76 85 0.1 99.81
根据表2四组不同类别的入侵检测结果,我们从以下三个方面分析:
(1)整体检测率。K-NBC的整体检测率要比NBC高,这是因为K-NBC在对normal这一类数据的检测率要比NBC高,而normal这一类数据又占整个检测数据集数的95%以上,这也说明了在上一节提到的normal类的数据分布曲线更加接近核密度曲线。
(2)检测率。在对DOS和PROBLE这两组数据检测结果,两个算法的检测率都相同,这是因为这两类入侵行为在实现入侵中占绝大部分,而且这一类数据更容易检测,所以两种算法的检测效果比较接近;针对 R2L检测,从表2可以看到,在没有进行数据预处理之前,两者的的检测率相同,但经过数据预处理后的两个算法的检测率都有了提高,而K-NBC的效率比NBC更好点;而对U2R的检测结果,K-NBC就比NBC差一点,经过数据预处理后,K-NBC的检测率有一定的提高,但还是比NBC的效果差一些。
(3)误检率。在DOS和Proble这两种组数据的误检率相同,在其他两组数据的中,K-NBC的误检率都比NBC的低。
根据表3的结果分析,我们也可以看到的检测结果与表2的分组检测的结果比较类似,并且从综合角度来说,K-NBC检测效果要比NBC的好。在这里,我们也发现,两种算法对R2L和U2L这两类入侵的检测效果要比DOS和Proble这两类入侵的差。这主要是因为这两类入侵属于入侵行为的稀有类,检测难度也相应加大。在KDD99竞赛中,冠军方法对这两类的检测效果也是最差的。但我们可以看到NBC对这种稀有类的入侵行为检测更为准确一点,这应该是稀有类的分布更接近正态分布。
从上述各方面综合分析,我们可以证明K-NBC作为的入侵检测分类算法的是有其优越性的。
表3 对混合入侵类型数据进行检测的结果
数据集
算法 整体检测 分类检测
Normal Dos Proble R2L U2R
检测率 误检率 检测率 误检率 检测率 误检率 检测率 误检率 检测率 误检率 检测率 误检率
NBC 98.14 1.8 98.2 0.8 99.8 0 99.8 0 90 0 86.7 1.8
K-NBC 99.78 0.2 99.8 2.3 99.8 0 99.8 0 96 0 73.3 0.1
SU+NBC 97.99 2.0 98 0.8 99.8 0 99.8 0 90 0 86.7 1.9
SU+K-NBC 99.79 0.2 99.8 1.9 99.8 0 99.8 0 96 0 80 0.1
5 结论
在本文中,我们用高斯核密度函数代替朴素贝叶斯中的高斯函数,建立K-NBC分类器,对入侵行为进行检测,另我们使用对称不确定方法来删除检测数据的中与类不相关的属性,从而进一步改进核密度朴素贝叶斯的分类效率,实验表明,对预处理后的审计数据,再结合K-NBC来检测,可以达到更好的分类效果,具有很好的实用性。同时我们也注意到,由于入侵检测的数据中的入侵行为一般为稀有类,特别是对R2L和U2R这两类数据进行检测时,NBC有着比较理想的结果,所以在下一步工作中,我们看是否能把NBC和K-NBC这两种分类模型和优点联合起来,并利用对称不确定理论来删除检测数据与类相关的属性中的冗余属性,进一步提高入侵检测效率。 参考技术A 贝叶斯 Thomas Bayes,英国数学家.1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献.1763年发表了这方面的论著,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语被沿用至今。
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。
贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:
1、已知类条件概率密度参数表达式和先验概率。
2、利用贝叶斯公式转换成后验概率。
3、根据后验概率大小进行决策分类。
他对统计推理的主要贡献是使用了"逆概率"这个概念,并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理,这一定理可用一个数学公式来表达,这个公式就是著名的贝叶斯公式。 贝叶斯公式是他在1763年提出来的:
假定B1,B2,……是某个过程的若干可能的前提,则P(Bi)是人们事先对各前提条件出现可能性大小的估计,称之为先验概率。如果这个过程得到了一个结果A,那么贝叶斯公式提供了我们根据A的出现而对前提条件做出新评价的方法。P(Bi∣A)既是对以A为前提下Bi的出现概率的重新认识,称 P(Bi∣A)为后验概率。经过多年的发展与完善,贝叶斯公式以及由此发展起来的一整套理论与方法,已经成为概率统计中的一个冠以“贝叶斯”名字的学派,在自然科学及国民经济的许多领域中有着广泛应用。
[编辑本段]【贝叶斯公式】
设D1,D2,……,Dn为样本空间S的一个划分,如果以P(Di)表示事件Di发生的概率,且P(Di)>0(i=1,2,…,n)。对于任一事件x,P(x)>0,则有:
n
P(Dj/x)=p(x/Dj)P(Dj)/∑P(X/Di)P(Di)
i=1
贝叶斯公式
[编辑本段]【贝叶斯决策理论分析】
(1)如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合,那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法)
(2)如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。(如已知判别式函数为线性或二次的,那么就要根据训练样本来估计判别式的参数,常见的是线性判别式和神经网络)
(3)如果我们既不知道任何有关被分类类别概率分布的知识,也不知道判别式函数的形式,只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。(如首先要估计是什么分布,再估计参数。常见的是非参数估计)
(4)只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类,从而估计它们概率分布的参数。(这是无监督的学习)
(5)如果我们已知被分类类别的概率分布,那么,我们不需要训练样本集合,利用贝叶斯决策理论就可以设计最优分类器。但是,在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。
问题:假设我们将根据特征矢量x 提供的证据来分类某个物体,那么我们进行分类的标准是什么?decide wj, if(p(wj|x)>p(wi|x))(i不等于j)应用贝叶斯展开后可以得到p(x|wj)p(wj)>p(x|wi)p(wi)即或然率p(x|wj)/p(x|wi)>p(wi)/p(wj),决策规则就是似然率测试规则。
结论:对于任何给定问题,可以通过似然率测试决策规则得到最小的错误概率。这个错误概率称为贝叶斯错误率,且是所有分类器中可以得到的最好结果。最小化错误概率的决策规则就是最大化后验概率判据。
[编辑本段]【贝叶斯决策判据】
贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。贝叶斯方法更适用于下列场合:
(1) 样本(子样)的数量(容量)不充分大,因而大子样统计理论不适宜的场合。
(2) 试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点: 第一,要决策分类的参考总体的类别数是一定的。例如两类参考总体(正常状态Dl和异常状态D2),或L类参考总体D1,D2,…,DL(如良好、满意、可以、不满意、不允许、……)。
第二,各类参考总体的概率分布是已知的,即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x/Di)是已知的。显然,0≤P(Di)≤1,(i=l,2,…,L),∑P(Di)=1。
对于两类故障诊断问题,就相当于在识别前已知正常状态D1的概率户(D1)和异常状态0:的概率P(D2),它们是由先验知识确定的状态先验概率。如果不做进一步的仔细观测,仅依靠先验概率去作决策,那么就应给出下列的决策规则:若P(D1)>P(D2),则做出状态属于D1类的决策;反之,则做出状态属于D2类的决策。例如,某设备在365天中,有故障是少见的,无故障是经常的,有故障的概率远小于无故障的概率。因此,若无特B,j明显的异常状况,就应判断为无故障。显然,这样做对某一实际的待检状态根本达不到诊断的目的,这是由于只利用先验概率提供的分类信息太少了。为此,我们还要对系统状态进行状态检测,分析所观测到的信息。 参考技术B 贝叶斯 Thomas Bayes,英国数学家.1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献.1763年发表了这方面的论著,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语被沿用至今。
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。
贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:
1、已知类条件概率密度参数表达式和先验概率。
2、利用贝叶斯公式转换成后验概率。
3、根据后验概率大小进行决策分类。
他对统计推理的主要贡献是使用了"逆概率"这个概念,并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理,这一定理可用一个数学公式来表达,这个公式就是著名的贝叶斯公式。 贝叶斯公式是他在1763年提出来的:
假定B1,B2,……是某个过程的若干可能的前提,则P(Bi)是人们事先对各前提条件出现可能性大小的估计,称之为先验概率。如果这个过程得到了一个结果A,那么贝叶斯公式提供了我们根据A的出现而对前提条件做出新评价的方法。P(Bi∣A)既是对以A为前提下Bi的出现概率的重新认识,称 P(Bi∣A)为后验概率。经过多年的发展与完善,贝叶斯公式以及由此发展起来的一整套理论与方法,已经成为概率统计中的一个冠以“贝叶斯”名字的学派,在自然科学及国民经济的许多领域中有着广泛应用。
[编辑本段]【贝叶斯公式】
设D1,D2,……,Dn为样本空间S的一个划分,如果以P(Di)表示事件Di发生的概率,且P(Di)>0(i=1,2,…,n)。对于任一事件x,P(x)>0,则有:
n
P(Dj/x)=p(x/Dj)P(Dj)/∑P(X/Di)P(Di)
i=1
贝叶斯公式
[编辑本段]【贝叶斯决策理论分析】
(1)如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合,那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法)
(2)如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。(如已知判别式函数为线性或二次的,那么就要根据训练样本来估计判别式的参数,常见的是线性判别式和神经网络)
(3)如果我们既不知道任何有关被分类类别概率分布的知识,也不知道判别式函数的形式,只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。(如首先要估计是什么分布,再估计参数。常见的是非参数估计)
(4)只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类,从而估计它们概率分布的参数。(这是无监督的学习)
(5)如果我们已知被分类类别的概率分布,那么,我们不需要训练样本集合,利用贝叶斯决策理论就可以设计最优分类器。但是,在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。
问题:假设我们将根据特征矢量x 提供的证据来分类某个物体,那么我们进行分类的标准是什么?decide wj, if(p(wj|x)>p(wi|x))(i不等于j)应用贝叶斯展开后可以得到p(x|wj)p(wj)>p(x|wi)p(wi)即或然率p(x|wj)/p(x|wi)>p(wi)/p(wj),决策规则就是似然率测试规则。
结论:对于任何给定问题,可以通过似然率测试决策规则得到最小的错误概率。这个错误概率称为贝叶斯错误率,且是所有分类器中可以得到的最好结果。最小化错误概率的决策规则就是最大化后验概率判据。
[编辑本段]【贝叶斯决策判据】
贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。贝叶斯方法更适用于下列场合:
(1) 样本(子样)的数量(容量)不充分大,因而大子样统计理论不适宜的场合。
(2) 试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点: 第一,要决策分类的参考总体的类别数是一定的。例如两类参考总体(正常状态Dl和异常状态D2),或L类参考总体D1,D2,…,DL(如良好、满意、可以、不满意、不允许、……)。
第二,各类参考总体的概率分布是已知的,即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x/Di)是已知的。显然,0≤P(Di)≤1,(i=l,2,…,L),∑P(Di)=1。
对于两类故障诊断问题,就相当于在识别前已知正常状态D1的概率户(D1)和异常状态0:的概率P(D2),它们是由先验知识确定的状态先验概率。如果不做进一步的仔细观测,仅依靠先验概率去作决策,那么就应给出下列的决策规则:若P(D1)>P(D2),则做出状态属于D1类的决策;反之,则做出状态属于D2类的决策。例如,某设备在365天中,有故障是少见的,无故障是经常的,有故障的概率远小于无故障的概率。因此,若无特B,j明显的异常状况,就应判断为无故障。显然,这样做对某一实际的待检状态根本达不到诊断的目的,这是由于只利用先验概率提供的分类信息太少了。为此,我们还要对系统状态进行状态检测,分析所观测到的信息。
he 参考技术C 高人,鸟闪了 参考技术D 已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数本回答被提问者采纳
朴素贝叶斯的理解
参考技术A朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布,然后基于模型,对给定的输入x,利用贝叶斯定理求出后验概率的最大的输出y。
具体的推导可以参考网上的博文,这里不再进行叙述。
其中P(A)称之为先验概率,我们希望求得的P(A|B)称之为后验概率。
单纯的看这个公式很难理解贝叶斯的含义,这里用周志华西瓜书中例子来进行更好的理解。
假设我们手里有了一个西瓜,它有一系列的特征,那么我们现在需要根据这些特征来判断这个是好瓜还是坏瓜呢?这也就变成了一个数理统计里面称为条件概率的东西,也就是在某个条件存在的基础上,我们来求某一个事件发生的概率,比如事件B发生的条件下求事件A发生的概率,我们可以写成P(A|B).
那我们西瓜的例子来说,事件B是什么?当我是我们可以观察到的一系列的这个瓜的特征值了。假设我们用加粗的 X 来表示,因为特征很多,加粗表示这是一个特征向量, X = x1,x2,...,Xn 。那么我们要求的就是基于这个条件下这个瓜是好瓜或者是坏瓜的事件的概率。就是求P("好瓜"|X)或者P("坏瓜"|X)。那这个怎么求呢?当然是使用上面的贝叶斯公式了。
最终我们可以写出
来比较这两个哪个的概率大,那么我们就认为我们的这个瓜是好瓜还是坏瓜。
既然已经有了可以求概率的公式,那我们可以着手进行计算了,首先是先验概率P(Ci)(这里换成字母C表示类别以及下标i表示第i类,当然在西瓜的例子里面只有两个类别,那就是“好瓜”和“坏瓜”),这个很好计算,只用统计出“好瓜”和“坏瓜”各有多少个,然后除以全部的个数就可以得出相应的概率了。
这边先看分母,因为在计算中我们用到的特征数据都是一样的,所以分母完全可以当成一个常数,也就是我们的公式可以简化成:
P(Ci)可以容易求出,但是P(X/Ci)就很困难了。因为把这个展开后为:
理论上这个可以利用我们的数据集来进行估计的,但是现实情况是,n的值往往非常大(属性非常多),而我们的数据集往往不能保证我们的样本包含了属性值的所有可能组合。那么很多p(X|ci)我们估计得到的值就是0。然而这些样本很可能仅仅是我们的数据集中没包含到,即“未被观测到”,但不代表它们现实中“出现概率为0”。
朴素贝叶斯对条件概率分布作了条件独立性的假设,由于这是一个较强的假设,朴素贝叶斯由此得名。有了这个假设,我们就可以这样计算P(X/Ci):
P(x1/ci)P(x2/ci)...P(xn/ci)
没错,就是把每个特征独立的拆出来写成连乘的形式来计算这个概率。
引入连乘操作后可能导致一个问题,那就是数据量大了之后,进行多次的连乘操作可能导致结果下溢,也就是最后算出的概率为0了,所以把连乘操作改为取对数操作,即logP(X/ci),展开后把每个概率取对数后进行相加。
由于我们验证的西瓜中有些特征属性可能数据集中不会出现,导致最终算出的概率为0,但现实中这种瓜是存在的,所以引入拉普拉斯平滑来进行处理。也就是计算公式是修改为:
N表示训练集D中可能的类别树,Ni表示第i个属性可能的取值数
对于离散数据只需要把对应特征的属性个数加起来除以总数即可,而连续型数据则需要借助概率密度函数,此处假设数据服从高斯分布,用高斯密度函数来计算连续型数据的概率。
此处用Python实现西瓜书上151页的例子,数据集是西瓜数据集3.0。
整体的思路:使用两个全局变量来存储好瓜和坏瓜在数据集中的索引,遍历待分类数据的数据,拿出待分类的特征属性来进行概率计算,,每次计算都需要算出特征属性值在所有好瓜或者坏瓜上的概率,计算概率时要区分离散数据以及连续型数据,加入拉普拉斯平滑和取对数运算,最终比较各自大小,得出分类结果。
以上是关于关于输入几个植物特征的智能识别系统的贝叶斯网络公式的主要内容,如果未能解决你的问题,请参考以下文章