新版白话空间统计:置信度的初探

Posted 虾神说D

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了新版白话空间统计:置信度的初探相关的知识,希望对你有一定的参考价值。

CSDN的被爬虫专用声明:虾神原创,公众号\\知乎:虾神说D

转发、转载和爬虫,请主动保留此声明。

前面说到莫兰指数的时候,挖下了一个大坑——虾神在文章里面里面,一再强调:查看莫兰指数之前,先要看看PZ两个值,如果PZ两个值不可信,那么得到的莫兰指数也是不可信的——

那么这个PZ值是何方神圣,如此之霸气,又有啥意义和道理呢?这几章我们来好好聊聊这个两个在统计学上的“最高审判者”。

要说PZ值,就先要明白“置信度”这个词的概念。当然,如果是统计学专业出生的同学,就不用详述了,在统计学里面,这个概念就是和“hello world”级别,but……鉴于看虾神科普文章的同学,大部分都不是统计学出身,所以我们可以好好的聊聊这个神奇的单词。

汉语八级考试——下面请听题:

  • A:听说老张昨天花大价钱买的古董是假的!

  • B:真的假的

  • A:真的

  • 问:老张买的古董,到底是真的还是假的……

  • 可见,追寻真相的重要性

但是一般来说,在无法去真正的看见真相的时候,我们通常选择是否相信告诉你这件事的那个人,你对事件的真假的信心,来自于你对叙述者的信心。(当然……人类的一个习惯就是“择其所好,避其所忌”,比如“我陷思,定体问”这种模板话术,还有很多人信——

言归正传——

追求真相是人类的天赋技能之一(追求,不是正视真相,因为有绝大部分人不会认可不符合他认知的真相,这也是人类的主要行为之一),那么置信度的意义就呼之欲出了……

置信度,英文原文Confidence interval,其中Confidence翻译成“置信”实际上是追求了信达雅里面的雅……但是在中文里面,置信这个词,一看起来给人的第一印象就是“难以置信”,而这个难以置信又偏偏与奇迹发生在一起,所以这个词在理解上,就让没有受过严格统计学理论训练的同学们理解得死去活来依然理解不了。

那么,我们从英文原文来咬文嚼字的话,Confidence有信心的意思,实际上最早这个词,也是用来标识“信心”这种非常主观意味的意思。所以与其用这么学术化的术语来描述的话,还不如直接用一个通俗易懂的名词来进行描述,就是:信心。

比如,我说,我这个实验结论,有95%的置信度……那么意义绝对不是说,这个实验做100次,有95次一定能够得到和我一样的结果,而是可以理解为,对于这种结果,我有95%的信心重现这个结论

好了,看到这里,大家应该隐隐约约知道这个置信度是啥概念了……原始概念上,它代表了一种主观因素。

那么下面来看看这几个例子,让我们来加深一下理解:

比如,虾神在一个学校里面,做了这样了一个调查,然后回来说,据我调查,这个学校,有72%的男生喜欢打篮球。

上面这个例子,说明了什么呢?

1、如果这个学校有1000名男生,是不是说明有720人喜欢打篮球?

2、如果某个班,有30名男生,那么这个班最少有21人喜欢打篮球?

3、在操场上,随机抽出10个男生来,是不是最少有7个男生是喜欢打篮球的?

4、在图书馆门口,随机拦下出入的100个男生,是不是应该有72个男生喜欢打篮球?

……

如果你受过系统的统计学训练,就很容易回答上面这4个问题 了……就算你没有受过系统的统计学训练,你也能隐约感受出来,这个72%的比例,绝对不会让上面那四个问题,全部都回答为“是”。

那么这个72%的男生喜欢打篮球,又有啥意义呢?下面通过一个简单的实验来进行模拟:

可以看到,虽然总体上72%的男生喜欢打篮球,但是我们在抽样的时候,真实抽出72%的标准概率的可能性,只有不到千分之一。这也是统计学里面一个很核心的概念:一切结论皆概率。

再来看看置信度里面第二个单词:interval,即区间、区域的意思,所以有些书上,置信度也被翻译成置信区间。

什么是区间呢?一个区间是由上限和下限两个值组成,比如我们说,人类的年龄正常应该在0-130岁之间(正常情况来说——不要和我谈玄幻剧本,也不要和我谈地摊文学……)。

那么如果我随便指定一个存在过的人,让你猜他活了多少岁(在哪个区间内)?如果想必中,猜的方法肯定是直接说0岁到130岁——你猜的区间越大,猜中的概率就越高——区间大小为99.999%,自然就99.999%中。

这个就是区间的概念。当然,统计学里面还要谈置信水平,也就是样本值落在统计值的哪个区域内的概率,区间是在这个水平之下的评估。下面我们通过一个简单的例子来说明一下:

(灵魂画手虾神亲手鼠绘)

比如我向着整面墙那么大的靶子扔飞镖——首先,排除掉一切其他可能性(比如飞镖坏了、墙塌了,虾神出手的一瞬间外星人把虾神绑架了等等问题),保证飞镖一定会钉在靶子上面。

那么现在让你在虾神蒙着眼镜出手之前,就画一个区域,保证你画的这个区域,一定能够包含这个飞镖的落点,那么怎么画呢?

回答当然是区域画得越大越好——

如果你绘制的区域,占到整面墙的99.9999%,那么虾神随手一扔,然后飞镖还在你画的区域以外的话,那就是发生了极低概率事件,通常我们也把这种事件,叫做——奇迹。

同样的,如果要去打赌,你画得越,你对自己胜利的信心肯定也就越大——自然,置信度也就越大。

所以,在我们做统计分析时候,我们会尽量的去把我们的靶子落点区域,绘制得更大,越大,那么我们胜利的信心也就越大,反之亦然成立。

当然,世事无绝对,就算我们绘制到了99.9999……%,那么还出现了意外,怎么办呢?所以不同于如小孩在看电视的时候,会问“这个是好人还是坏人”,统计学的世界里面,不会出现非黑即白这种简单的观点。任何时间,在统计学的世界里面,都是概率,只有大概率事件和小概率事件两种可能。而极小概率事件,也就是所谓的奇迹概率,不在我们讨论范围内。

说到这里,大家应该对置信度这个概念有一定的了解了,那么我们在做分析或者写论文的时候,这个置信度(信心)又是怎么来的呢?难道真的就是靠着人一拍胸脯说:

那么我估计你的导师或者你的论文评审,会直接把论文摔在你的脸上……

所以,我们就得通过所谓的量化标准,来说明我们的信心到底有多少,这就引入了下一个问题:P值与Z得分

预知后事如何,请听下回分解:

请叫我挖坑小能手

转发、点赞、打赏……随缘

 

CSDN的被爬虫专用声明:虾神原创,公众号\\知乎:虾神说D

转发、转载和爬虫,请主动保留此声明。

以上是关于新版白话空间统计:置信度的初探的主要内容,如果未能解决你的问题,请参考以下文章

新版白话空间统计:空间分布模式

新版白话空间统计(17)空间关系概念化之面邻接

新版白话空间统计(17)空间关系概念化之面邻接

新版白话空间统计(23):平均中心

新版白话空间统计(23):平均中心

新版白话空间统计(20)空间关系概念化之点临近