描述统计学:极差方差标准差
Posted lishi-jie
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了描述统计学:极差方差标准差相关的知识,希望对你有一定的参考价值。
变异程度的度量(离散程度的度量)
交货时间的变异性造成按时完成生产任务的不确定性
极差
极差=最大值-最小值
最简单的变异程度的度量
但很少单独用来度量变异程度。仅有两个观测值,异受极端值的影响
四分位数间距
能够克服极端值的影响,因为四分位数是中间的50%数据的极差.
方差
是用所有数据对变异程度所做的一种度量。
总体方差
样本方差
样本方差是总体方差的点估计,平均数的离差之和永远为0。
例子:
第一组的鸡的斤数分别是 2.5,3,3.5
第二组的鸡的斤数分别是 1,3,5
很显然我们能看出第一组鸡看起来重量的差别不大,第二组鸡的差别就很大,因为鸡本身重量并不大,相差两斤的话一下子就能看出来
可是我们发现这两组鸡重量的平均数是一样的,但是这两组鸡却有明显的差别,这是平均数就不能体现二者的差别,所以我们引入了方差的概念
方差越大,说明数据的差别越大。反应了一组数据的稳定性。
标准差
方差的平方根
样本标准差:
总体标准差
标准差更容易与平均数等其他统计量进行比较,这是由于它们的单位与原始数据是相同的。
标准差系数
(标准差/平均数)*100%
在变量的标准差和平均数都不相同时,比较它们的变异程度,标准差系数是一个有用的统计量。
练习
- 考虑数据值为10,20,12,17和16的一个样本,计算方差和标准差。
new_list = [10,20,12,17,16]
data = Series(new_list)
# 方差
data.var()
3.125
# 标准差
data.std()
1.7677669529663689
new_list = [182,168,184,190,170,174]
data = Series(new_list)
# 方差
data.var()
75.2
# 标准差
data.std()
8.67179335547152
# 平均数
data.mean()
178.0
# 极差
data.max()-data.min()
22
# 标准差系数
(data.std()/data.mean())*100%
4.87%
# 平均数
car.mean()
38.0
# 标准差
car.std()
9.848857801796104
# 方差
car.var()
97.0
虽让东西部的租车费用的平均数相同,但是标准差东部的数值远远大于西部的,可见东部的各个城市间的租车费用差异性比较大,离散度较高,西部的各个城市间的租车费用相对来说差别不大,比较稳定。
dawson = [11,10,9,10,11,11,10,11,10,10]
clark = [8,10,13,7,10,11,10,7,15,12]
shop = pd.DataFrame([dawson,clark],index=[‘dawson‘,‘clark‘])
shopT = shop.T
shopT
dawson clark
0 11 8
1 10 10
2 9 13
3 10 7
4 11 10
5 11 11
6 10 10
7 11 7
8 10 15
9 10 12
diff_vale = shopT.max()-shopT.min()
diff_vale
# 极差
dawson 2
clark 8
s = shopT.std()
s
# 标准差
dawson 0.674949
clark 2.584140
由两家的极差和标准差可见,稳定性dawson远远高于clark。
Bonita_2005 = [74,78,79,77,75,73,75,77]
Bonita_2006 = [71,70,75,77,85,80,71,79]
golf_person = pd.DataFrame([Bonita_2005,Bonita_2006],index = [2005,2006])
# 平均数
golf_person.mean(axis=1)
2005 76.0
2006 76.0
# 标准差
golf_person.std(axis=1)
2005 2.070197
2006 5.264436
golf_person.T.describe()
2005 2006
count 8.000000 8.000000
mean 76.000000 76.000000
std 2.070197 5.264436
min 73.000000 70.000000
25% 74.750000 71.000000
50% 76.000000 76.000000
75% 77.250000 79.250000
max 79.000000 85.000000
虽然平均数是相同的,但是看的出来,2006年的比赛,心态并不稳定,但是最大值和最小值的差值从2005的6,2006年的15反映出该运动员的水平是得到了提高的。
以上是关于描述统计学:极差方差标准差的主要内容,如果未能解决你的问题,请参考以下文章
R语言使用psych包的describeBy函数计算不同分组(group)的描述性统计值(样本个数均值标准差中位数剔除异常均值最小最大值数据范围极差偏度峰度均值标准差等)