贝叶斯分类算法(上):无处不在的分类问题

Posted 锐翌基因

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了贝叶斯分类算法(上):无处不在的分类问题相关的知识,希望对你有一定的参考价值。

你将学到什么?

在生物信息学中,我们需要应用统计学方法来挖掘基因大数据的深层信息,分类就是其中的一项重要而基础的分析。在此之前,小锐向大家介绍了、、三种分类方法。今天我们来讲讲贝叶斯分类,它是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文对分类问题和贝叶斯定理进行详细讲解。


 首先,我们来捋一捋什么是分类问题” 


对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。

贝叶斯分类算法(上):无处不在的分类问题

从数学角度来说,分类问题可做如下定义

C = {y1, y2,…, yn}和I = {x1, x2, … xm, …},确定映射规则y =f(x),使得任意xiI有且仅有一个yjC使得yj= f(xi)成立(不考虑模糊数学里的模糊集情况)。


其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f


这里要着重强调,分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则,而是通过对经验数据的学习从而实现一定概率意义上正确的分类,因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类,分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关

 

例如,医生对病人进行诊断就是一个典型的分类过程。任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情。这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。


贝叶斯分类算法(上):无处不在的分类问题


接下来,咱们聊聊“贝叶斯分类算法的基础——贝叶斯定理”


每次提到贝叶斯定理,心中的崇敬之情都油然而生,倒不是因为这个定理多高深,而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。


这里先解释什么是条件概率: 

P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:

贝叶斯分类算法(上):无处不在的分类问题


贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路,请看其公式:

贝叶斯分类算法(上):无处不在的分类问题

 

贝叶斯定理也曾出现在谢耳朵的黑板上:

贝叶斯分类算法(上):无处不在的分类问题


贝叶斯分类算法(上):无处不在的分类问题 贝叶斯分类算法(上):无处不在的分类问题

贝叶斯定理的知识,今天先讲到这咯。在《贝叶斯分类算法(下)》中,我们来详细聊聊朴素贝叶斯分类。你将会知道,为什么这么低调朴素的算法深受大家喜爱。

贝叶斯分类算法(上):无处不在的分类问题


供稿:范芳芳

编辑:王丽燕


以上是关于贝叶斯分类算法(上):无处不在的分类问题的主要内容,如果未能解决你的问题,请参考以下文章

机器学习九大算法---朴素贝叶斯分类器

带你搞懂朴素贝叶斯分类算法

轻松带你搞懂朴素贝叶斯分类算法

贝叶斯分类器(3)朴素贝叶斯分类器

学习带你搞懂朴素贝叶斯分类算法

朴素贝叶斯分类