什么是Z-score?都有哪些使用场景?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是Z-score?都有哪些使用场景?相关的知识,希望对你有一定的参考价值。

参考技术A Z-score (z值, z分数,标准分数)

Z值(z-score,z-values, normal score)又称标准分数(standard score, standardized variable),是一个实测值与平均数的差再除以标准差的过程。Z score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z score分值进行比较。

用公式表示为:

z=(x-μ)/σ

x为某实测值,μ为平均数,σ为标准差

Z值的量代表着实测值和总体平均值之间的距离,是以标准差为单位计算。

大于平均数的实测值会得到一个正数的Z值,小于平均数的实测值会得到一个负数的Z值。

一句话:

Z score通过(x-μ)/σ将两组或多组数据转化为无单位的Z score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。

Z score处理方法处于整个框架中的数据准备阶段。也就是说,它是数据预处理阶段中的重要步骤。

数据分析与挖掘中,很多方法需要样本符合一定的标准,如果需要分析的诸多自变量不是同一个量级,就会给分析工作造成困难,甚至影响后期建模的精准度。

举例来说,假设我们要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。

那么如何能够用一个同等的标准来比较A与B的成绩呢?Z-Score就可以解决这一问题。

下图描述了Z-Score的定义以及各种特征。

如上图所示,Z-score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的Z-score值衡量,以保证数据之间的可比性。Z值可以告诉我们整个数据相对于总体平均值的位置。Z 分数越高或越低,结果就越不可能偶然发生,结果就越有可能有意义。

在对数据进行Z-score标准化之前,我们需要得到如下信息:

1)总体数据的均值(μ)

2)总体数据的标准差(σ)

3)个体的观测值(x)

通过将以上三个值代入Z-score的公式,即:

我们就能够将不同的数据转换到相同的量级上,实现标准化。

重新回到前面的例子,假设:A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。

通过上面的公式,我们可以计算得出,A的Z-score是1((90-80)/10),B的Z-score是2((600-400)/100)。因此B的成绩更为优异。

反之,若A考了60分,B考了300分,A的Z-Score是-2,B的Z-Score是-1。因此A的成绩更差。

因此,可以看出来,通过Z-score可以有效的把数据转换为统一的标准,但是需要注意,并进行比较。Z-score本身没有实际意义,它的现实意义需要在比较中得以实现,这也是Z-score的缺点之一。

Z-score最大的优点就是简单,容易计算,很多工具中,比如R,不需要加载包,仅仅凭借最简单的数学公式就能够计算出Z-score并进行比较。此外,Z-score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。

但是Z-score应用也有风险。首先,估算Z-score需要总体的平均值与方差,但是这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。其次,Z-score对于数据的分布有一定的要求,正态分布是最有利于Z-score计算的。最后,Z-score消除了数据具有的实际意义,A的Z-score与B的Z-score与他们各自的分数不再有关系,因此Z-score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。

假设国家女排队员身高平均值1.94米,标准差0.2(标准差代表了不同队员身高值的差异程度,又称为变异度)。某天,有一位身高1.2米的女子提出想申请加入国家队,我们如何衡量这名女子与国家女排队员的身高差异程度呢?

第一,这名女子的身高离女排队的平均身高相差有多远?

实测值-平均值=1.2-1.94=-0.74(米)

第二,上述差值(-0.74米)是一个数值,在国家队中这个差别是什么概念,能否量化?我们已知国家女排队员身高的差异程度是标准差,那如果我们计算出上述差值是标准差的多少倍,就可以用来表达这个差值的变异程度。

实测值-平均值/标准差=-0.74/0.2=-3.7(倍)

这里的-3.7就是Z值。同理,一名身高2.6米的女子申请加入国家女排队,她的身高Z值为3.3。

为什么大多数指标均要求正常Z值区间为[-3,3]呢?这是一个纯统计学问题,大家记住即可:

Z值落在区间[-3,3],我们所测值在总群体的发生概率为99.7%,超出这个区间的概率为0.3%。

所以,上面例子中1.2米和2.6米身高的两名女子出现在国排队的概率均小于0.3%,均不满足身高要求。事实上,国家女子排队的身高Z值区间标准可能更小,如[-0.5,0.5]。

大数据的应用场景都有哪些(零售篇)

技术分享图片

我们在前面的文章中给大家介绍的使用大数据的医疗优势的具体内容,其实大数据的应用场景并不是局限于医疗方面,在零售方面也是可以给人们带来极大的方便的。那么在零售业方面大数据还能够给人们带来什么好处呢?我们在这篇文章中给大家详细解答一下。

如果在零售方面使用了大数据,那么这样就能够了解了人们的购物意图。一般来说,零售行业大数据应用有两个层面,一个层面是零售行业可以了解客户消费喜好和趋势,进行商品的精准营销,降低营销成本。另一层面是依据客户购买产品,为客户提供可能购买的其它产品,扩大销售额,也属于精准营销范畴。另外零售行业可以通过大数据掌握未来消费趋势,有利于热销商品的进货管理和过季商品的处理。零售行业的数据对于产品生产厂家是非常宝贵的,零售商的数据信息将会有助于资源的有效利用,降低产能过剩,厂商依据零售商的信息按实际需求进行生产,减少不必要的生产浪费。这样不管是对于零售商还是人们都有好处。

但是如果在不久的将来,零售的企业就不再只是零供关系的好坏,而是要看挖掘消费者需求,以及高效整合供应链满足其需求的能力,因此信息科技技术水平的高低成为获得竞争优势的关键要素。不论是国际零售巨头,还是本土零售品牌,要想顶住日渐微薄的利润率带来的压力,在这片商海中立于不败之地,就必须思考如何拥抱新科技,并为顾客们带来更好的消费体验。这就需要我们了解顾客需要什么,想要什么,知道了这些我们才能够针对顾客的需求来进行推送产品信息,这样更好的促进商品的销售。

如果当顾客在某一个地点看到了某一零售商的广告的时候,可以通过网络搜索自由浏览产品信息,对感兴趣的或需要购买的商品用手机扫描下单,约定在晚些时候送到家中。而在顾客浏览商品并最终选购商品后,商家已经了解顾客的喜好及个人详细信息,按要求配货并送达顾客家中。未来,甚至顾客都不需要有任何购买动作,利用之前购买行为产生的大数据,当你的某种物品将要用完的时候,这是就会送来一瓶新的,直接付款就好,想想这是不是很方便,虽然你和商家并没有见过面,但是在这一方面对你十分了解,这是不是很贴心呢?

由此可见,如果零售业使用了大数据,那么大数据就能够更好的为人们服务,让大家的生活更加方便,希望这篇文章能够给人们带来帮助,最后感谢大家的阅读。

 

以上是关于什么是Z-score?都有哪些使用场景?的主要内容,如果未能解决你的问题,请参考以下文章

redis 是什么?都有哪些使用场景?

Linux在测试中的主要使用场景都有哪些?

3.redis 都有哪些数据类型?分别在哪些场景下使用比较合适?

使用微信小程序应用场景都有哪些?

大数据的应用场景都有哪些(电商篇)

大数据的应用场景都有哪些(零售篇)