朴素贝叶斯模型:你的孩子是天才吗?
Posted KPMG大数据挖掘
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了朴素贝叶斯模型:你的孩子是天才吗?相关的知识,希望对你有一定的参考价值。
深夜,奶爸出差一周终于回到了家,去了好几个地方,每天在酒店醒来都不知道自己身在何处,终于可以回到家好好休息一下。
出了电梯走进楼道,还未开门就听见小土豆的声音。走进屋里,小土豆走来给了爸爸一个大大的拥抱,奶奶说这么晚了还不睡觉就是为了等爸爸回来。
小土豆拉着爸爸去她的玩具堆里,拿了积木给爸爸玩,又拿了妈妈新买的书给爸爸看,仿佛有无数的故事要讲给爸爸听。
土豆一会儿讲起跟小朋友们玩的趣事,虽然有很多字词没有人听得懂,但她自己讲得可开心了。一会儿唱起歌来,自己报幕自己演唱自己跳舞,把自己所有会的歌曲都要循环一遍,每唱完一首还要大家一起鼓掌。一会儿又要叫爸爸、爷爷、奶奶都站起来,跟着她来学滑冰冰,一边教一边还说着“不对不对,要这样”。一会儿还拉着爸爸去窗外看月亮,弯弯的月亮被一层薄雾笼罩,于是她说月亮像毛毛虫一样……
土豆睡着以后,奶奶还说起土豆才1岁8个月就这样那样,周围人都夸她简直天才啊,还问我怎么看。虽然我听到表扬还是很得意的,但作为数据分析从业者,我还是觉得应该搞点儿数学模型来认识这事儿。鉴于朴素质朴的奶奶一直也不了解我是干啥的,我说:“您先去睡觉,我得好好想想才能回答。”
首先啥才叫天才呢?据度娘百科:“天才,是指人拥有一定的天赋(即天分:不是可以学到的东西),包括卓绝的创造力、想象力;天然的资质的人(如:体质、嗓音等)。”总之是一种很特别的人才了。假设我们已经知道了哪些人是天才,比如能上清华北大的都是,所以以下所有“天才”都是打引号的。接下来,天才在小时候有哪些特征呢?不同说法都有,如早熟、话唠、爱用追根问底、爱比喻、爱联想、好奇心强等等。
我们现在都知道天才有什么样的特征,就是直接看现在清华北大的同学在小时候有哪些特征就好了,问问他们的父母多少都能回忆起一些。但问题是,作为一个不到2岁的孩子的家长,如何能通过观察现在孩子表现出的特征,来判断这孩子将来是否天才(能不能上清北)呢?
下面统计来啦!
我们假定在100个同龄孩子中,最终会有1个天才,这个天才儿童啥都会,唱歌啊、跳舞啊、演讲啊,但反过来并不成立,就像有人小时候很聪明、但最后因为各种原因也没考上清华北大一样。剩下的99个不是天才的,也有20个会唱歌的,79个不会唱歌的。
那么如果我们先仅从一个特征来看,如果只知道一个孩子会唱歌,那么他是天才的概率有多大呢?
从上面的计算中,我们知道这100个孩子中有21个会唱歌的,只有1个是天才,所以概率是1/21,不到5%!这个概率还是很低的。为啥,因为天才只有1%这个先验概率太低了。
把上面的计算过程翻译成数学公式,不感兴趣的同学可以自行跳过。
已知:P(天才)=1% —— 100个孩子里面有一个天才;
P(唱歌|天才)=100% —— 天才都会唱歌;
P(唱歌|非天才)=20/99 —— 非天才里面也有20个会唱歌的;
P(唱歌)=P(天才)*P(唱歌|天才)+P(非天才)*P(唱歌|非天才)=21%;
因此:P(天才|唱歌)=P(天才)*P(唱歌|天才) / P(唱歌)=1/21
是不是很熟悉,贝叶斯公式,贝老爷子的经典理论。
有同学可能要问了,如果单会一个唱歌成为天才的概率低,那么如果一个小孩子既会唱歌又会跳舞,那么他倾向于是天才还是非天才呢?如果三样都会呢?
我们还是先来生成一组数据:
编号 |
唱歌 |
跳舞 |
演讲 |
天才 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
0 |
0 |
0 |
3 |
0 |
1 |
1 |
0 |
4 |
0 |
0 |
0 |
0 |
5 |
0 |
1 |
0 |
0 |
6 |
0 |
1 |
1 |
0 |
7 |
1 |
0 |
0 |
0 |
8 |
1 |
0 |
0 |
0 |
9 |
0 |
0 |
1 |
0 |
10 |
1 |
0 |
0 |
0 |
…… |
上述数据中共有100行,1个天才,三样都会,剩下的99个孩子里共有20个会唱歌的,20个会跳舞的,20个会演讲的。
假设以上三项特征才能都是互相独立的,于是会有如下统计:
P(唱歌|天才)=P(跳舞|天才)=P(演讲|天才)=100%
P(唱歌|非天才)=P(跳舞|非天才)=P(演讲|非天才)=20/99
如果有个孩子会其中两样,比如唱歌和跳舞,那么可以基于给定条件分别计算他是天才和非天才的概率,然后比较大小,哪个概率大就判定为哪一类:
P(天才|唱歌,跳舞)=P(天才)*P(唱歌,跳舞|天才) / P(唱歌,跳舞)
P(非天才|唱歌,跳舞)=P(非天才)*P(唱歌,跳舞|非天才) / P(唱歌,跳舞)
显然这两个公式的分母都是一样的,所以我们只要比较分子就行了:
P(天才)*P(唱歌,跳舞|天才)= 0.01 * 100% * 100% = 0.01
P(非天才)*P(唱歌,跳舞|非天才)= 0.99 * 20/99 * 20/99 = 0.04
0.04>0.01,所以哪怕会两样才能,这个孩子还是非天才的概率高。
相应地,如果会三样,天才相关概率为0.01,非天才相关概率为0.008,此时天才的概率终于胜出了,我们可以预测这个孩子是天才!——最后真是不是那得18年后才知道呢。
上面这套演算是什么模型呢?朴素贝叶斯,它是基于贝老爷子的理论的一套十分简单的分类算法,它叫朴素就是因为这种方法的思想真的很朴素。在没有其他可用信息下,我们会选择条件概率最大的类别。当然基于上述数据还有其他的构建分类器的方法,如决策树。在特征相关性较小时,朴素贝叶斯模型的性能往往表现较好。
贝叶斯理论中除了以上模型还有贝叶斯聚类、贝叶斯回归、贝叶斯网络等,这套算法被广泛应用于自然语言处理、图像识别、拼写检查、机器翻译、机器人医生等领域,是机器学习算法的重要组成部分。
OK,现在都整明白了,哪儿那么多天才,快快乐乐成长就好啦!此时,土豆翻了个身说梦话,“找奶奶”。周末了,好好陪陪家人。
长按二维码即可关注!也请随手推荐我们给你的小伙伴 ↓↓↓↓
以上是关于朴素贝叶斯模型:你的孩子是天才吗?的主要内容,如果未能解决你的问题,请参考以下文章