喾哲~ (八月最佳)
Posted Debroon
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了喾哲~ (八月最佳)相关的知识,希望对你有一定的参考价值。
《目录》
- 数学的起源
- 大数定律:
- 贝叶斯概率:
- 傅立叶变换:
- 哈夫曼编码:
- 最大熵原理:
- 幸存者偏差:
- 丑小鸭定理:
- 阿姆达尔法则:
- 马尔可夫模型:
- 学者存在性定理:
- 奥卡姆剃刀法则:
- 柯尔莫哥洛夫复杂度:
- 哥德尔不完备定理:
- 二进制编码的有效性:
- 中心极限定理与三大分布模型
- 数学期望、标准差、正态分布
- 费马大定理、可证伪性、回归平均
- 启发式、没有免费午餐定理、最小最大值定理
读书不能如追星,仰望、仰望着世界,得试着俯视,才有钻研学问的感觉。
数学公式看不懂 ,直接看数学原理背后的哲学结论好了,因为哲学就是时时刻刻试图触及事物的本质,我们来一起探索......
数学的起源
对一般人来说,数学意味着数字和计算,但其实数学远比这个答案要复杂得多,数学是研究数量、结构、变化、空间以及信息等概念的一门学科。
一般,数学可以分成三个部分,几何、分析和代数。
- 几何(geometry),是描述静态物体空间关系的。
- 分析(analysis), 是用来处理物体随时间改变和移动的,像微积分就属于分析。
- 代数(algebra), 是帮助我们用数字、符号和方程式来处理信息的。像群论、图论和拓扑学都属于代数的范畴。
对于人类来说,数学是为人类自身的生存而发展出来的能力。
为了让数学具备 简洁、直接、齐整的特性,人们把数学发展为了一门 符号语言。
在原始社会时,人需要知道 什么时候夜幕会降临,遇到危险怎么找到最快的路径离开,最有可能找到食物的地方......
现在呢,要抓住一个飞来的球,在拥挤的地铁上穿行,开车...... ,这些数学计算对于人是不自知,虽然数学计算是默认的,但并不意味着头脑里的计算一定、一直是对的。
举个 “赌徒谬误” 的例子。
我在玩俄罗斯轮盘赌,小球第一次停在了红色区域,我会觉得,下一次小球出现在黑色区域的可能性会更大,但是从数学概率上来说,其实每一次的概率都是 50%。
那为什么我会觉得,小球再一次出现在红色区域的概率不如出现在黑色区域的大呢 ?
这是因为在我们祖先的生活经验里,在一个地方生活过一段时间,把那里的食物采集得差不多之后,就必须换地方了,不然没东西可以吃了,所以从生存经验上来说,出现过一次的事件,不太可能出现第二次,这种认知模式被保留下来,就出现了“赌徒谬误”。
像大脑的自动计算,目前机器还不能完全做到,如无人驾驶就不能适应 各种各样又随时变化 的路况。
数学,能告诉我们所有生物的寿命极限、绝对力量(一次举重最大重量)、形态(为什么长到一定程度就不能长高了)、毛细血管为啥是四维的......
- 接电话,听到一个甜腻腻的声音,啊,肯定对面是一个美女 !!!
- 女生觉得某个男孩帅,那 TA 一定也聪明,说不定性格也好......
从数学上分析,几个小概率事件组合再一起的概率只会更小。
您 遇见/即将遇见 的那位,更多的是,是拥有 大概率 事件的人,除非您特别特别的特别。
见过某位黑客找女朋友,啧啧,没谁了。
大佬认为像我这么优秀的人,必须找一位才貌双全的女子。
美貌第一,那女朋友的长相应该在人群的俩个标准差之外(比 97.5% 的女性美,剩下的 2.5%)。
智商也得比较高才行(为后代着想),大佬认为简单点,就一个标准差吧(从 2.5% 中再选 16%)。
现在就剩下 0.4%,而她还必须和大佬年龄相仿、单身、和大佬相互吸引......
这么算下来,全球大约只有 几千女性 是大佬的结婚对象。
嗯,大佬得到了一个结论 :就现在的相亲模式,“我” 用数学方法证明了自己一辈子(几乎)找不到女朋友。
数学的作用是帮助我们克服经验和感觉带来的不精确,让我们不但可以超越自身的感觉来理解世界和宇宙,还可以使用数学语言来对抽象的概念进行深入的探索。
大数定律
重来一次,人生也并不能改变什么。
1939年,南非数学家克里奇冒失地跑到欧洲,结果被关进集中营。
百无聊赖的时候,他给自己找到了一个有趣的乐子:一枚硬币抛了1万次,记录了正面朝上的数量。
统计结果:
图中的折线,一开始结果偏离 50% 特别远,很多次都是正面。
随着抛硬币的次数越来越多,正面朝上的概率明显地向 50% 靠近。
其实,计算机模拟的结果也是这样:
- 抛 10 枚硬币,正面朝上的比例范围是 30%~90%;
- 抛 100 枚,比例范围就缩小了,变为了 40%~60%;
- 抛 1000 枚,比例范围就缩小到 46.2%~53.7%。
越来越接近 50%,那是不是有一种神秘力量,让结果不断逼近50%呢?
其实这靠的是,大数对小数的稀释作用。
大数定律不会对已经发生的情况进行平衡,而是利用新的数据去削弱Ta的影响力,直到前面的数据从结果上看,影响力非常小,可以忽略不计。
如果我们人生中犯了一两个错误,也不要纠结,我们应该用更多正确的事,把这件事稀释掉。
生活中,我们很难像监狱里的数学家一样,扔 1 万次硬币来验证一件事。
但当您真正理解了大数定律,在这类问题面前,您就能作出更正确的决策。
假如您现在可以搭乘一部时光穿梭机,改变您人生中任意一件事,您能否改变自己的命运?
我们往往把人生的问题,归结为嫁错人,选错专业,进错公司。
改变这些选择,能改变我们的人生吗?
我们都知道那句人生格言,人生关键的就那么几步,选错了就选错了。
那我去改变关键选择不就好了吗,但为什么说这样不起作用呢?
理解了大数定律,您就能理解为什么穿越不能改变命运。
就像买股票,预言家告诉您:“现在是茅台的最低价位一个机会,一定要全仓买入茅台。”
能您觉得你会发财吗?
不会啊。因为您可能在下一次危机中,加杠杆就赔得倾家荡产。
这样的故事我们见得还少吗?
获得彩票大奖的人,后来就会一生幸福吗?
并不是。根据统计,许多美国彩票中奖者后来过得都不怎么样,因为一次的飞来横财,并不会让一个人的生活更美好。
赌博怎么都是输的:
- 输了,继续赌还是输;
- 赢了,继续赌,随着赌注的增加,只会输的更多,倾家荡产是完全可能的;
一个硬币即使连续 20 次出现正面,但是如果连续抛很多次的话,正面出现的概率还是 50%。
也就是说,硬币的命运,是由Ta自身的结构所决定的。
当样本量足够大的时候,大数定律就开始发挥作用。
当我们讨论一生的命运时,我们的个人命运不取决于一两次选择,而取决于我们的系统。
所以,“性格决定命运”这句话,应该修正为:性格决定行为方式,行为方式决定命运。
您的行为方式就是那个决定您命运的系统。
就算有时光穿梭的机器,回到过去甩了男友、换掉老板,最后的命运可能还是一样。
面对人生的大数定律,我们该怎么办呢,因为我对现在的自己还不太满意,但我又想改变!
我们可以先业界的前辈学习经验,比如,澳门赌场。
以澳门赌场的美式轮盘为例,赌场的概率优势只有 2.7%,看起来很小,但是凭借“大数定律”的魔力,能够稳稳地形成对赌客的概率压制。
所以,改变系统也不用您做对人生中的每一件事,做好每个选择,只需要您把人生系统的指针,向正确的方向拨一点。
但别小看这一点点偏差,就是这点偏差,会引领我们走向完全不一样的人生轨道。
遇事顺不顺其实在心,所有看问题的角度都可以概括为对【挨一耳光】的反应:
- 扇回去:太强势与生活里的人、事都要斗一斗,结果谁都斗不过,失去了一切;
- 认怂,捂脸离开:一辈子都懦弱、胆小怕事,失去了自我;
- 先冷静分析一下:卒然临之而不惊,无故加之而不怒,人是可以成长、改变的,必然有出路。
学习、做事、工作都会不断的遇到【挨一耳光】的事,不知道,我一直走的哪种呢?
从短期来看,人生充满偶然,充斥着不尽的选择;而长期呢,每个人的生命是必然的。
调整我们自己的人生系统,坚持做正确的事情,也许会比暴富一次更能让人满足和幸福。
除此之外,大数定律还可以打三国杀。
因为在 8v8、国站经常会有冲动的孩子,盲打。
我被盲打后,就想跳了。
不过,有大数定律之后,我明白要想让我总的个人战绩很好看,我必须原谅那冲动的孩子,忽略我还做不到。
如果您追求总战绩的美观,在这里,送上打三国杀的秘笈:
- 菜鸡报复
- 老手原谅
- 高手忽略
说到命,很多中国人脑海里难免会受到算命的影响,从而潜意识里去认命,可其实如果具体去看什么决定了每一个人的命,是选择,而合理的选择是建立在方法论上,好的方法论,离不开有一个正确的价值观,说到底,多数时候我们认命是默认了自己粗糙的价值观。
能认识自己的人,知道如何去改变自己,也知道哪些是自己能够左右的,哪些是自己无法改变的。当一个人意识到自己的一生除去运的那部分是可以改变的,潜意识也会跟着改变。
贝叶斯概率
如何漂白王境泽的真相定律 ?
还记得,小时候书本上的文章 《狼来了》?
今天学了贝叶斯概率后,可以试着推一下小孩子每次说 狼来了 的可信度分别是多少,最后您就知道为什么村民不相信 ta 了。
- 超乎寻常的论断需要超乎寻常的证据。
那么如何量化证据和论断的联系呢 ?
贝叶斯说,您对某个假设的相信程度,应该用一个概率来表示 —— P( 假设 ) 。
用 概率 定义了 信 和 不信,P = 1 就是绝对相信,P = 0 就是绝对不信,P = 15% 就是有一点信。
先把 信仰 给量化,有了新的 证据 我们就更新这个概率,变成 —— P( 假设|证据 ) ,这个叫条件概率。
名词解析:
信仰:对某种思想、宗教、某人、某物的相信程度。
证据:可以证明事件事实的材料。
概率:用 表示某事情发生的 可能性大小(有可能发生,有可能不发生) 的一个量。
一般来说,P( A|B ) 的意思是 “在 事件B 是真的条件下,事件A 的概率”。
咱们举个例子,A 表示下雨,B 表示带伞。一般来说这个地方不常下雨,所以 P(A) = 0.1。
但今天您注意到爱看天气预报的老张上班带了伞,那就可以推断,今天下雨的概率应该增加 —— 在 “老张带伞” 这个条件下的下雨概率,就是 P( A|B )。
俩个因果关系:
- 缘故 → 结果,在这里就是 “下雨 → 带伞” 即 A → B。
- 结果 → 缘故,在这里就是 “带伞 → 下雨” 即 B → A。
A → B 和 “老王是凶手 → 在老王家里找到凶器”,ta 们都相当于 “假设 → 证据”。
现在我们想算的是 P(假设|证据),是从结果倒推缘故,这叫“逆概率”,这个不好算。
一般都是从缘故推结果容易算,如您看见一个小孩向窗户扔球,您可以估计窗户被打碎的概率有多大,这是“正向概率”;但如果您看到窗户碎了,想要推测窗户是怎么碎的,那就无法确定了。
所以咱们要算的是一个逆概率,这要怎么算呢 ,有一个贝叶斯的方法。
为了计算 P( A|B ),我们考虑这么一个问题:A 和 B 都发生的概率有多大 ?
这道题有两个算法。
一个办法是先算出 B 发生的概率有多大,是 P(B);再算 B 发生的情况下,A 也发生的概率有多大,是 P( A|B ),那么 A、B 都发生的概率,就是把这两个数相乘,结果是 P( A|B )×P( B )。
同理,先考虑 A 发生再考虑 A 发生的条件下 B 也发生,结果是 P(B|A)×P(A)。
这俩的结果一定相等,P( A|B )×P( B ) = P( B|A )×P( A ),求 逆概率P( A|B ) 即:
举个贝叶斯概率应用的例子,如果您真的读懂了,那类似的问题都可以自己解决,如狼来了。
有一位 40 岁的女性去做乳腺癌的检查,检查结果是阳性。那请问,这位女性真的得了乳腺癌的概率有多大。
我们用 A 表示她得了乳腺癌,B 表示测试结果为阳性,这个因果关系是乳腺癌导致阳性, A → B。我们要计算 P(A|B)。根据贝叶斯公式,我们需要 P(A),P(B) 和 P(B|A)。
在有新证据之前,P(A) 就是一般相同年龄段女性得乳腺癌的概率,统计表明是 。
P(B|A) 是如果这个人真有乳腺癌,她的监测结果为阳性的可能性。这是由检测仪器的敏感度决定的,答案是73%,仪器并不怎么准确。
P(B) 是随便找个人,给她检测出阳性的可能性是多大。这个我们没有直接的数据,要拆成这个人有乳腺癌(A)和没有乳腺癌(~A)两种情况,其中 P(~A) = 1-P(A) = 。
刚才说了有乳腺癌、检测为阳性的概率是73%。而没有乳腺癌的人还可能会被误诊成阳性,已知这个误诊率是 P(B|~A) = 12%。
于是, P(B) = P(B|A)×P(A) + P(B|~A)×P(~A) = 12.1%。
把这些数字带入公式,我们最终得到 P(A|B) = 。
也就是说,哪怕这位女性被检测出来是乳腺癌阳性,她真得乳腺癌概率也只有不到 1%。
这是一个非常出乎意料的结论。但是贝叶斯公式不是什么黑箱操作的魔法,您还可以用下面这张图参详一下。
假设有 3000 名 40 岁的女性,根据前面说的各项数据,其中只有 4 人真有乳腺癌,而被正确检测为阳性的只有三人。另一方面,被检测仪器误诊为阳性的,却有 360 人。所以在所有阳性诊断之中,只有不到 1% 的人真有乳腺癌。
出现这种情况的根本原因就在于乳腺癌的患者比例很小,而检测仪器又很不准确。
几乎每一本讲贝叶斯方法的书都会使用一个这样的例子,您想明白一个就想明白了所有的。
请注意,如果这位女性本身携带容易得乳腺癌的基因,那我们一开始选用的 P(A) 就不是 1/700 了,而应该是 1/20。用这个数算,最后的 P(A|B) = 1/3,这就非常不一样了。
这是一个关键问题。一开始,您到底凭什么选择 P(A) 的数值呢?
那是您自己的主观判断。
这就是为什么有很多统计学家攻击贝叶斯方法,人们总是觉得科学方法应该是完全客观的才对!
但贝叶斯方法实际上是对科学方法的重大升级。
传统的科学方法,是
- 1. 提出一个理论假设;
- 2. 做实验验证;
- 3. 如果实验结果符合理论,这个理论就暂时站得住脚,如果不符合,理论就被证伪了。
这是非黑即白的剧情,理论要么就继续保留,要么就彻底抛弃。
而贝叶斯方法则是先给理论假设设定一个可信度。
新证据并不直接证实或者证伪理论,只是调整可信度的大小,做一个动态的判断。
贝叶斯方法是一种实用主义的态度,其实咱们想想,我们搞研究的目的并不一定是了解 绝对真实 的世界 —— 我们现在的数学定理也只是再发现世界和宇宙的规律,如同人在丛林的冒险—— 我们的目的是通过获取实用的知识,做出尽可能准确的判断和决策。
贝叶斯公式右边乘法的 有时候被称为 “似然比”。
贝叶斯公式可以写成:
您可以把 ta 理解成 “观念更新” 的公式,P(假设) 是老观念,新证据发生之后,您的新观念是 P(假设|证据)。
新观念 = 老观念 * 似然比。
您的观点,随着事实,发生了改变。
贝叶斯定理让我想到了一群牛人,那就是企业家:
- 1、马云当年说无论如何都不会做游戏,而现在游戏已经是阿里很重要的一块业务。
- 2、小米最开始出手机时,说手掌大小的手机最适合,绝对不会做大屏手机,而现在手机越做越大。
- 3、罗永浩说手机绝对不会低于3000块,后来果断降价了。
- 4、罗振宇说罗辑思维视频节目要做10年。做了不到一半就停更了。
我之所以说出以上这些案例,不是为了嘲笑他们的不坚守(那是傻子做的事),我想一定是他们的认知升级了,他们随着环境条件的变化刷新了自己的认知,立即产生了行动。 我想这是他们今天如此成功的原因。 不是傻傻的坚守一个看似坚定不移的信念或者对自我的承诺,而是认真的观察这个世界发生的一切而随时矫正自己的行为方式。 这就是牛人。 所以如果说谁对贝叶斯定理运用的最好,一定是成功的企业家,因为他们是真金白银的在这个竞争残酷的世界做每一次选择。
我们设想一下,如果每个人的阅历和想法不同,一开始的观点不一样,那么哪怕是面对同样的证据,人们更新之后的观点,也还是不一样的!
所以贝叶斯方法本质上是个主观的判断方法:同样的证据,贝叶斯方法允许您有不同的判断!!!
我们首先有一个初始信念,被称为先验,当我们获得额外的信息后可以对这个信念进行修正更新。
- 1. 先评估一下自己的信念,设定 P(信念);
- 2. 等待新证据;
- 3. 证据出来以后,用贝叶斯公式更新自己的信念,计算 P(信念|证据);
- 4. 继续等待新证据……
还有更秀的:
- 看过神雕侠侣,年龄不是问题;
- 看过金刚,种族不是问题;
- 看过倩女幽魂,生死不是问题;
- 看过断背山,性别也不是问题。
从哲学角度来说,贝叶斯概率是 理解差异。
上次聊天时,朋友说我们三观不一样、聊不下去。
如果用贝叶斯想一下。。。。。。
其实这很正常,说明开始的时候你们互相并不了解嘛。
西方有一句谚语说:我们因为不了解而走到一起,因为了解而分手。
年轻人交友容易这样,开始时把友谊想得很完美,然后就用这个完美的标准去要求友谊,结果一定出问题。
在友谊中,不能没有宽容,要尊重双方的差异。
回想交朋友时,开始时是不是太轻率,后来是不是太苛求。
不过,这很难,因为人很难保持开放哦~
所谓开放是让人可以放下成见、情绪、旧东西,合理的面对不同的观念,并且不陷入认知偏误,这很难的。
傅立叶变换
您写的文章真的是 原创 吗?
十九世纪法国数学家 傅里(立)叶 发现任何周期性的函数(信号)都等同一些三角函数的线性组合。
从哲学角度来说,傅里叶变换是把一个复杂的事物拆解为一堆标准化的简单事物的方法。
如,跳舞这个复杂的动作由腿部、手部、肩部、腰部等单一的动作组成。
举一个相关的例子,傅里叶运用于声音中。
声音是空气的震动,手指轻轻地弹一下碗,我们会听到 悦耳的声音。
声音由 音调 和 音量(响度) 组成,音调是震动的频率,音量是震动的幅度。
上图的正弦曲线,也是一个简单的声音。
这个声音呈完美周期性的变换、频率是固定的。
而一个复杂的声音,就是由这样简单的声音组成。
因此,傅里叶变换在声音的领域中即:
由一系列简单的波动如搭积木一般组成一个复杂的波动,看下图。
图中俩条红色的曲线,都是由那些蓝色的波形叠加而出。
傅里叶变换最核心的是可以告诉我们,图中红色曲线是由多少组成比例的蓝色曲线构成。
红色曲线 = 频率是 100 的蓝色曲线 × 0.5 + 频率是 200 的蓝色曲线 × 0.2 + 频率是 300 的蓝色曲线 × 0.1 + 频率是 400 的蓝色曲线 × 0.08 + ……
取出蓝色曲线的数值成分:红色曲线 = (0.5, 0.2, 0.1, 0.08, ......)。
写一篇文章,会参考许多资料;那这篇文章,就可以拆分为 《XX》*0.1 + 《XX》*0.2 + ......
所以,现在大部分原创经常是已知的、简单的事物的排列组合。
这里说的是,傅里叶变换的思想原理,而其中更加有趣的地方,您可以看看:
- 《傅里叶变换的终极解释》(上)
- 《傅里叶变换的终极解释》(下)
- 《用傅里叶变换画出任何简笔画》
从哲学角度来说,傅里叶变换是把一个复杂的事物拆解为一堆标准化的简单事物的方法,大道至简。
哈夫曼编码
如何创造一门数字语言 ?
前置知识:二进制编码的有效性。
我们在谍战片中经常看到报务员还没有发完报,敌方的特工就冲了进来,这种场景并不完全是虚构的,因为在二战时欧洲德占区这种情景时常出现,因此省一点时间就意味着自身的安全。
即使不考虑战争中的特殊情况,省掉三分之一的通信成本,也是很可观的。
现在我们来设计一个用于英文通信的编码系统吧,特点:最短、易用。
英文通信系统由 26 个字母组成,为了拥有 易用 这个特点,我们选择最基础的二进制作为整个编码系统的最小单元(而且二进制和机器配合的最好)。
26 个英文字母都由 0 和 1 来代替,那么任何设计呢 ?
首先思考几个问题:
- 需要多少二进制位才能表示 26 个字母 ?
- 二进制位怎么对应一个字母才是最优的 ?
- 到底是等长编码的平均编码长度少,还是不等长编码的平均长度少 ?
搞清楚上面的 3 个问题,您就可以自己造出著名的摩尔斯电码,甚至还可以优化 !!
[名词解析]
等长编码:表示 26 个英文字母的二进制长度是一样的。
不等长编码:表示 26 个英文字母的二进制长度不一样。
平均编码:表示 26 个英文字母的二进制总长度 / 26 得出的平均长度。
举个例子,等长编码下 B 是 10,那 A 是 1,有等长这个条件 A 就需要补一个零,A 即 01,B 即 10。
不等长编码下 B 是 10,那 A 是 1,莫尔斯电码就是不等长编码。
- 需要多少二进制位才能表示 26 个字母 ?
显然是 5 个,表示 26 个字母的任意一个就是 26 选 1 啦。
信息量是 ,结果是约(向上取整)是 5 比特。
- 二进制位怎么对应一个字母才是最优的 ?
个人觉得经常出现的字母要采用 容易敲的(等长编码)/较短(不等长编码) 的编码,不常见的字母就采用较长的编码。
下图是一些自然语言的频率统计,更加具体的请见博客:《密码学》。
著名的莫尔斯电码没有严格的按照字符的频率来设计,因此,哈哈,莫尔斯电码还可以改进一下哈。
- 到底是等长编码的平均编码长度少,还是不等长编码的平均长度少 ?
著名的莫尔斯电码(不等长编码)采用的也是二进制,平均编码长度是 3;而使用等长编码系统的平均长度是 5,显然不等长编码长度比等长编码长度要划算......
证明:
假定有 32 条信息,每条信息出现的概率分别为 、、、 ……
依次递减,最后 31、32 两个信息出现的概率是 、 ( 此时 32 个信息的出现概率之和就是 1 )。
用二进制数对 ta 们进行编码。
等长度和不等长度两种编码方法,我们来对比一下:
- 方法一:采用等长度编码,码长为 5。因为是 log32=5 比特。
- 方法二:不等长度编码,如果出现概率高就短一些,概率低就长一些。
我们把第一条信息用 0 编码,第二条用 10 编码,第三条用 110 编码……最后 31、32 两条出现概率相同,都很低,码长都是 31。
第 31 条信息就用 1111……110( 30 个 1 加 1 个0 ) 编码,第 32 条信息,就用1111……111( 31个1 ) 来编码。
这样的编码虽然大部分码的长度都超过了 5,但是乘以出现概率后,平均码长只有 2,也就是说节省了 60% 的码长。
如果利用这个原理进行数据压缩,可以在不损失任何信息的情况下压缩掉 60%。
这种方法最早是由 MIT 的教授 哈夫曼 发明的,因此也被称为 “哈夫曼编码”。
哈夫曼编码从本质上讲,是将最宝贵的资源(最短的编码)给出现概率最大的信息。
资源分配原则:一条信息编码的长度和出现概率的对数成正比。
如在上面的例子中,第一条消息出现的概率为 ,我们知道 (以二为底) 的对数等于 -1,因此TA的编码长度就是 1 (即码 0);最后俩条消息出现的概率为 次方,取对数后等于 -31,因此TA们的编码长度就是 31。
从哲学角度来说: 闲暇出智慧,所谓闲暇是有时间花在自己身上(热爱的领域)。
金钱 < 时间 < 注意力(对别人凡是不妨碍我达成目标的事,我都可以替 TA 服务),
最大熵原理
我知道我会在哪里死,又如何 ?
每郑一次骰子 ?,1 - 6 的可能性都是 。
每个面的可能性都是相同的,这是在理想环境下。
那么,不理想的环境是什么呢 ??
骰子 ? 质地分布不均匀、且各个面的形状有差异。
骰子毕竟是实体,因此,每个面的概率大多数情况下不是平均分布的,会多也会少呀。
当我们使用的骰子就是上面这颗不均的骰子,那我们该如何去赌呢 ??
其实还是应该猜 ,概率均摊让风险最小。
现在经统计得到了此骰子 ? 郑到 3 点的概率是 ,而 3 点对面的 4点(对应面之和是7) 的概率几乎为 0。
现在,我们又该如何去赌呢 ??
总概率 1 减去 3 、4 点的概率和,再把结果概率均摊到其余的 1、2、5、6 点,均摊的 4 点概率是 。
采用均摊是因为在不知道别的信息的条件下,均摊的风险最小,均摊为什么让风险最小呢 ?
因为我们没有对未知的情况作出如何主观的假设,我们的预测都在当前已知的信息下决定的;均摊就如一句话:“不要把所有的鸡蛋 ? 放一个篮子里”。
第一次,我们得到的信息是:骰子质地不均。
虽然我们知道概率发生了变化,但并不好主观的假设。
第二次,我们得到的信息是:骰子质地不均、3 和 4 点出现的概率之和是 。
我们知道了 3 点、4 点的概率是 和 0,其余各点均摊为 。
最大熵原理即:当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要作任何主观假设。
最大熵原理简直就是在复述我们郑骰子的过程,不是嘛 !!
我们按照上述的流程,建立一个概率的模型,这样的模型会使得 不确定性 达到最大,因此,得名为 “最大熵模型”。
名词解析
熵:不确定性。
记住啦,使用当前的信息就好,不要自作主张得想进一步减低不确定性而作出需要主观的假设,这样预测反而越不准确。
从哲学角度来说:最大熵原理如 过犹不及。
幸存者偏差
妈妈为什么不挑食 ?
讲一个小故事,也是 2018 年的高考作文题。
在第二次世界大战期间,美国军方在哥伦比亚大学建立了一个秘密研究小组,叫统计研究小组。
TA 的任务是组织美国的统计学家为打赢第二次世界大战服务。这个小组里牛人无数,如我们熟悉的控制论的创始人诺伯特·维纳(Norbert Wiener),还有后来得过诺贝尔经济学奖的米尔顿·弗里德曼。
不过,在这个牛人无数的小组中,天赋最高的并不是他们,而是一位叫亚伯拉罕·瓦尔德(Abraham Wald)的数学家。
美国军方认为,如果每次战斗中,自己被击落的飞机比对方少 5%,消耗的油料低 5%,弹药多 5%,机动性高 5%,就会最终成为胜利方。这个结论也是有数学依据的,不是假设。
因此,军方给这群数学家出了一道题。在打仗的时候,为了不让自己的飞机被敌人的战斗机击落,需要给飞机装上装甲。但是,装甲会增加飞机的重量,这样飞机的机动性就会减弱,还要消耗更多的燃油。
因此,需要解决的问题是,怎样在防御性能和飞行性能之间找一个平衡点。军方希望数学家帮助他们搞清楚,在哪里加强装甲防护是最合适的。
军方给数学家提供了很多数据。美军的飞机跟敌军的飞机交火之后返回基地,飞机上会留下来很多弹孔。军方发现,在返航的飞机上,机身上的弹孔比引擎上的弹孔更多。
因此,军方认为,最应该加强防御的是飞机的机身。他们想让统计学家研究一下,为了保护飞机,机身需要增加多少装甲。
瓦尔德给出的答案却和军方最初的想法大不一样。瓦尔德认为,需要加装装甲的地方不应该是弹孔多的部位,而应该是弹孔少的部位,也就是飞机的引擎。
为什么会是这样呢 ??
我们先从一个理论假设来看。从理论上来说,飞机各个部位中弹的概率应该是一样的。
那么,为什么返航的飞机机身上的弹孔比引擎上的弹孔更多呢 ??换言之,引擎上本来应该有的弹孔去哪里了 ??
瓦尔德认为,这是因为引擎被击中的飞机都坠毁了。回来的飞机,机身上尽管留下了很多弹孔,却仍然能够经得住打击,所以才能安全返航。打个比方来说,如果我们到战地医院去统计受伤的士兵,您会发现,腿部中弹的士兵肯定比脑部中弹的士兵要多。脑部中弹的士兵很少能够活下来,腿部中弹的士兵才有更大的概率存活。
数学家把这类现象称为 “幸存者偏差”,人们只看到幸存下来的,却没有看见已经失败和消亡的。
再举几个 “幸存者偏差” 的例子:
- 妈妈为什么不挑食 ?因为她买菜的时候已经挑过了。
- 吸烟有害健康,烟草公司会列举长寿的人里也有很多人吸烟的例子来证明吸烟也可以长寿 !大多数吸烟的人提前去逝了。
- 因为媒体报道的交通事故基本是飞机,所以我们感觉飞机很危险,事实是汽车每天出事的概率远大于飞机,报道的却少。
- 在股票的买卖上,很多骗局就是利用 幸存者偏差 骗到了投资人,原理就是:“大面积撒网,选择性补刀”。
- 比尔·盖茨、扎克伯格、脱不花 等人都没上完大学,那我们是不是就不要上大学了呢 ?您要知道和创业一样,媒体报道的都是成功的极小数,对于大部分人来说,大学并不一定可以提高成功的概率( luck ! ),但一定会减低您失败的概率。
现在,我们一起分析一下 幸存者偏差理论 的数学基础吧。
我们做一个简单的假设,飞机被击中的部位只有俩个,引擎和机翼,这两个随机事件分别被称之为 A 和 B。
当然还有一种情况,就是 A 和 B 同时发生,为了简单起见,我们不考虑 TA 。
于是飞机被击中的总概率为 P(A) + P(B)。
接下来如果 A 发生(击中引擎),坠落的概率我们假定为 P1,返航的概率当然就是 1 - P1。
类似的,我们假设 B 发生后(击中机翼),坠落和返航的概率为 P2 和 1 - P2。
由于有幸存者偏差,我们看到的坠毁和返航的分布情况是 P2 和 1 - P2,但这是一部分信息缺失的情况下的误判。
那么真实的坠毁和返航比例应该是什么呢 ? ?
在前面的假设下,飞机坠毁的总概率为 P(A) * P1 + P(B) * P2。
之前有说 飞机被击中的总概率为 P(A) + P(B),因此被击中后坠毁的 条件概率 可以用一个公式给出,当然返航的概率就是从 100% 中减去 TA 。
公式及推导:
我们假定引擎被击中的概率为 5%,被击中后坠毁的概率为 60%,机翼被击中的概率为 10%,被击中后坠毁的概率为 10%。
10% vs 90%,这是我们在缺失信息后看到的坠毁和返航的比例(击中机翼的情况,坠落和返航的概率为 P2 和 1 - P2)。
用上面的式子算下来,总的来讲飞机被击中后坠毁的概率为 27%,因此真实的返航坠毁比例是 27% vs 73%,而不是 10% vs 90%,说明信息缺失很多。
如果我们加固引擎,让击中后坠毁的概率降到 30%,减少机翼的装甲,让相应的概率增加到 15%,那么总的来讲飞机被击中后坠毁的概率降低到了 20%,比前面的 27% 降低了很多。
相反,如果加固机翼,减少引擎的装甲,被击中后坠毁的概率将大幅上升。
从哲学角度来说:幸存者偏差应是说,重要的东西要用心看。
It is only with the heart that one can see rightly; what is essential is invisible to the eyes.
---《小王子》
而学习哲学的这个动作,能帮您透过现实世界错综复杂的表面看清现象的本质。
丑小鸭定理
我,我长的丑怎么办 ?
《丑小鸭的故事》:
在夏日阴凉的树阴下,鸭妈妈孵着鸭宝宝。小鸭子一个个破壳而出,只有那只最大的蛋还没有动静。鸭妈妈耐心地等着,终于,小家伙钻出来了,他又大又丑,和别的小鸭子很不一样。大家一见到他就叫起来:瞧,他多丑啊!有一只鸭子马上扑过来,狠狠啄了他一下。
大家都不喜欢丑小鸭,连他的兄弟姐妹也说:“你这个丑八怪,真希望猫儿把你抓去才好!”
丑小鸭很难过,他真想躲到一个别人看不见的地方。这天天黑的时候,他悄悄地离开了家,晚上睡在一片沼泽地里。天亮时,突然传来砰砰的枪响,整群的大雁从芦苇里飞出来,原来有猎人在打猎。一只猎狗跑了过来,把鼻子顶到他身上,凶巴巴地露出牙齿。丑小鸭吓得缩成一团,可是猎狗嗅了嗅,又跑开了。
啊,我丑得连猎狗也不咬我了!丑小鸭悲伤地想。
他来到一家农舍,农舍里住着一只小猫和一只母鸡。母鸡问:“你会生蛋吗?”丑小鸭摇摇头。母鸡说:“这么重要的事你都不会做!”
小猫问:“你会拱背吗?会喵唔喵唔叫吗?”丑小鸭又摇摇头。 “那你会什么呢?”小猫轻蔑地问。丑小鸭想了想,说:“我会在水里游泳。”
母鸡和小猫哈哈大笑,他们都看不起丑小鸭。不久,丑小鸭离开了他们。
秋天来了,鸟儿们成群结队地飞往温暖的南方。一天,草丛中飞出一群白色的大鸟,细长的脖子,洁白的翅膀,他们是这样美丽,丑小鸭看得呆了,他真羡慕这些美丽幸福的鸟儿。
冬天的天气越来越冷,水结冰了,丑小鸭和冰块冻在了一起。幸好有个农夫把他带回了家。丑小鸭醒来后,有些害怕,他躲进厨房,可是不小心打翻了牛奶壶,牛奶泼了一地。农夫的妻子尖叫起来,丑小鸭吓坏了,看见大门敞开着,他赶紧逃出了农夫的家。
这个冬天寒冷又漫长,丑小鸭没有东西吃,也没有朋友,他艰难地捱着。当冬天过去,春天终于来临的时候,丑小鸭忍不住想大哭一场。
他拍拍翅膀,发现翅膀比以前有力得多,他试了两下,竟然可以飞起来了!他飞出沼泽,飞过森林,到了一个美丽的湖边。这时,他又看见了那群美丽的天鹅,正在水面上游来游去。他自惭形秽,把头低低地垂到水上,只等待着死。但是他在这清澈的水面上看到了什么呢?他看到了自己的倒影。但那不再是一只粗笨的、深灰色的、又丑又令人讨厌的鸭子,而却是——一只天鹅!许多大天鹅在他周围游泳,用嘴来亲他。他现在清楚地认识到幸福和美正在向他招手。
花园里来了几个小孩子,他们向水上抛来许多面包片和麦粒。最小的那个孩子喊道:“又来了一只新天鹅!”大家都说新来的天鹅最年轻、最好看。听到大家说他是美丽的鸟中最美丽的一只鸟,丑小鸭感到又难为情又幸福,它从内心里发出一个快乐的声音:“当我还是一只丑小鸭的时候,我做梦也没有想到会有这么多的幸福!”
丑小鸭不仅是一个故事,也是一个数学定理。
请问是俩只天鹅之间的差距大还是一只鸭子和一只天鹅的差距大 ?
大家基本都会认为鸭子和天鹅的差距大,因为俩只天鹅都是天鹅,种类是一样的。
这么想就只考虑了他们的外形,就像人分成了 高矮/颜值/经济/性格/健康 等等,每按一种标准考虑,人就被分类了。
天鹅和天鹅是相似的吧,比较差距主要看,您的标准是什么 ,但标准,可能有无数个。
名词解析
相似:所谓这俩个对象“相似”,就是在给所有对象分类的时候,这俩个对象能被分在同一个类里面。在各自不同的分类之中,TA们俩个被分到一起的次数,就是相似度的大小。
对象:
举个例子。
三个对象排成一排,分别是 天鹅A、天鹅B 和 丑小鸭。
我们来看看对这三只鸟有多少种分类方法,具体做法是我们选择一个属性,符合这个属性的就算是一类,不符合的就不算。
比如说,我们选择的属性是“白色”,那俩只天鹅是白色,丑小鸭是灰色的,所以根据这个属性,俩只天鹅就被选中,而丑小鸭不在这一类。
这个分类结果可以用 (110) 表示 —— 对应三个对象的位置,1 代表在这个分类里,0 代表不在这个分类里。
而如果我选择的属性是 “排第一名”,那就只有 天鹅A 在这个分类里面,分类结果就是(100)。
如果属性是 “不是白色”,那俩只天鹅都不算,只有丑小鸭在这个分类里面,结果就是(001)。
如果属性是 “白色,但是不排第一名”,结果就是(010)。
以此类推......发现,对下面图中表示的八种分类方法,其实都能找到一个对应的“属性” ——
而且对于三个物体,一共也就只有这 8 种分类方式。
那怎么定义相似度呢 ?
就是看这 8 种分类之中,有多少种,这俩个对象被分到了同一类。比如说 天鹅A 和 丑小鸭,就在(101)、(111)、(000)、(010) 这四个分类中属于同一类,那我们就可以说 天鹅A 和 丑小鸭 的相似度 = 4。
同理,天鹅B 和 丑小鸭 的相似度也是 4。
而 天鹅A 和 天鹅B 的相似度 ??
TA们同类的分组是(110)、(111)、(000)、(001),也是 4。
也就是说,丑小鸭 和 天鹅 之间的相似度,和俩只天鹅之间的相似度,是一样的。
这就是 “丑小鸭定理”。
一般来说,如果有 N 个对象,那么您就一共有 次方种不同的分类方法,而结果还是这样,各个对象之间的相似度是一样的。
换一个说法,丑小鸭定理也可以表述成:“丑小鸭跟天鹅之间的差异,和两只天鹅之间的差异一样大。”
正如世界上不是只有长的帅的,也还有长的让人放心的(即脸大或脸圆),所以别人才会找您倾述自己的生活啊。
在计算机里有一个模式识别,功能是让算法自动的客观分类给定的所有对象。
学过丑小鸭定理的您,是否觉得这是一个能实现的算法 ??
这显然是不可能的,因为人给出的分类标准都是主观的,因此这个分类标准是不靠谱的。
应用这种分类,只会激起海啸、无尽的争论:
- 将人按照种族分,其实种族并不存在;
- 将人按照学历分,其实学历并不存在;
- 将人按照性别分,其实性别并不存在;
每一种分类都是主观的,每
以上是关于喾哲~ (八月最佳)的主要内容,如果未能解决你的问题,请参考以下文章