深入浅出统计学02

Posted xiaoheng2020

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深入浅出统计学02相关的知识,希望对你有一定的参考价值。

02 集中趋势的度量

基本概念

  1. 异常值: 与其他数据格格不入的极高或极低的数值。
  2. 偏斜数据:当异常值将数据向左或向右“拉”时即产生偏斜数据。
  3. 众数:众数是频数最大的数值。众数必须存在于数据集中。众数是唯一能用于类别数据
    的平均数。
  4. 均值
  5. 中位数
  6. 四分位数:四分位数是这样一些数值,他们将数据一分为四。最小的四分位数称为下四分位数,最大的四分位数称为上四分位数。中间的四分位数即中位数。
  7. 百分位数:百分位数将数据一分为百。
  8. 百分位距:百分位距与四分位距相似,但百分位距是介于两个百分位数之间的距离。
  9. 箱线图(箱形图):箱线图(箱形图)能在同一张图上体现多个距和四分位数,是在这方面十分有用的一种方法。“箱”显示出四分位数和四分位距的位置,“线”则是显示出上、下界。
  10. 方差:方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
  11. 标准分

均值:平均数的一般度量

求中位数三步法

  1. 按顺序排列数字:从最小值排列到最大值
  2. 如果有奇数个数值,则中位数为位于中间的数值。如果有N个数,则中间数的位置为(n+1)/2
  3. 如果有偶数个数值,则将两个中间数相加。然后除以2。中间位置的算法是:(n+1)/2。两个中间数分别位于这个中间位置的两侧。

求众数三步法

  1. 把数据中的不同列别或数值全部找出来
  2. 写出每个数值或类别的频数
  3. 挑出具有最高频数的一个或几个数值,得出众数

03分散性与变异性的度量

  • 平均数能让你知道数据中心所在,但若要给数据下结论,仅有均值、中位数和众数往往无法提供充足信息。在本章中,我们将开始分析各种距和差,让你的数据分析技术进入新境界。

使用全距区分数据集

  • 全距的计算方法是:用数据集中的最大数减去数据集中的最小数。最小值称为下界,最大值称为上界。
  • 全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。

异常值带来的问题 - 四分位距

  • 四分位数出手相救
  • 首先按升序排列数据,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一原有数据。
  • 起到将整批数据一分为四作用的几个数值就是所谓的四分位数。
  • 每两个四分位数之间的距被称为四分位距。
  • 四分位距 = 上四分位数 - 下四分位数

百分位数

  • 四分位数是将数据一分为四的数值,同理,百分位数是将数据一分为百的数值。通常,第K百分位数就是位于数据范围K%处的数值,常用P_k表示。

求百分位数

  1. 首先将所有数值按升序排序。
  2. 为了求出n个数字的第k百分数的位置,先计算k*(n/100)。
  3. 如果结果为整数,则百分位数处于第k*(n/100)位和下一位数之间。取这两个位置上的数字的平均值,得出百分位数。
  4. 如果k*(n/100)不是整数,则将其向上取整,结果即百分位数的位置。

用箱线图绘制各种“距”

变异性比分散性更具体

  • 计算平均距离 - 各个数值与平均距离总是为0(正负距离相互抵消)。

用方差来计算变异性

标准差才是更直观的量度方法

  • 标准差是方差的平方根。

方差速算法

使用标准分比较不同数据集中的数值

  • 通过Z分将数据集转化为一个均值为0、标准差为1的通用分布。

标准分释义

  • 标准分为我们提供了一种对不同数据集的数据进行比较的办法,这些不同数据集的均值和标准差甚至都各不一样。通过这种方法,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较。

以上是关于深入浅出统计学02的主要内容,如果未能解决你的问题,请参考以下文章

深入浅出统计学01

《深入浅出统计学》豆知识摘录

Data - 深入浅出学统计 - 摘要

Linux深入探索02-文档查看:man与info

深入浅出 iostat 命令

《深入浅出数据分析》笔记