深入浅出统计学02
Posted xiaoheng2020
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深入浅出统计学02相关的知识,希望对你有一定的参考价值。
02 集中趋势的度量
基本概念
- 异常值: 与其他数据格格不入的极高或极低的数值。
- 偏斜数据:当异常值将数据向左或向右“拉”时即产生偏斜数据。
- 众数:众数是频数最大的数值。众数必须存在于数据集中。众数是唯一能用于类别数据
的平均数。 - 均值
- 中位数
- 四分位数:四分位数是这样一些数值,他们将数据一分为四。最小的四分位数称为下四分位数,最大的四分位数称为上四分位数。中间的四分位数即中位数。
- 百分位数:百分位数将数据一分为百。
- 百分位距:百分位距与四分位距相似,但百分位距是介于两个百分位数之间的距离。
- 箱线图(箱形图):箱线图(箱形图)能在同一张图上体现多个距和四分位数,是在这方面十分有用的一种方法。“箱”显示出四分位数和四分位距的位置,“线”则是显示出上、下界。
- 方差:方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
- 标准分
均值:平均数的一般度量
求中位数三步法
- 按顺序排列数字:从最小值排列到最大值
- 如果有奇数个数值,则中位数为位于中间的数值。如果有N个数,则中间数的位置为(n+1)/2
- 如果有偶数个数值,则将两个中间数相加。然后除以2。中间位置的算法是:(n+1)/2。两个中间数分别位于这个中间位置的两侧。
求众数三步法
- 把数据中的不同列别或数值全部找出来
- 写出每个数值或类别的频数
- 挑出具有最高频数的一个或几个数值,得出众数
03分散性与变异性的度量
- 平均数能让你知道数据中心所在,但若要给数据下结论,仅有均值、中位数和众数往往无法提供充足信息。在本章中,我们将开始分析各种距和差,让你的数据分析技术进入新境界。
使用全距区分数据集
- 全距的计算方法是:用数据集中的最大数减去数据集中的最小数。最小值称为下界,最大值称为上界。
- 全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。
异常值带来的问题 - 四分位距
- 四分位数出手相救
- 首先按升序排列数据,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一原有数据。
- 起到将整批数据一分为四作用的几个数值就是所谓的四分位数。
- 每两个四分位数之间的距被称为四分位距。
- 四分位距 = 上四分位数 - 下四分位数
百分位数
- 四分位数是将数据一分为四的数值,同理,百分位数是将数据一分为百的数值。通常,第K百分位数就是位于数据范围K%处的数值,常用P_k表示。
求百分位数
- 首先将所有数值按升序排序。
- 为了求出n个数字的第k百分数的位置,先计算k*(n/100)。
- 如果结果为整数,则百分位数处于第k*(n/100)位和下一位数之间。取这两个位置上的数字的平均值,得出百分位数。
- 如果k*(n/100)不是整数,则将其向上取整,结果即百分位数的位置。
用箱线图绘制各种“距”
变异性比分散性更具体
- 计算平均距离 - 各个数值与平均距离总是为0(正负距离相互抵消)。
用方差来计算变异性
标准差才是更直观的量度方法
- 标准差是方差的平方根。
方差速算法
使用标准分比较不同数据集中的数值
- 通过Z分将数据集转化为一个均值为0、标准差为1的通用分布。
标准分释义
- 标准分为我们提供了一种对不同数据集的数据进行比较的办法,这些不同数据集的均值和标准差甚至都各不一样。通过这种方法,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较。
以上是关于深入浅出统计学02的主要内容,如果未能解决你的问题,请参考以下文章