《白话统计》——读书笔记_持续补充

Posted 数据の变异

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《白话统计》——读书笔记_持续补充相关的知识,希望对你有一定的参考价值。

三、分布

3.1 累计函数和概率密度函数

参考网站:累计函数和概率密度函数
①离散型数据
概率函数(概率分布、分布律):离散随机变量X取不同的值,对应不同的概率值。
概率分布函数(累计概率函数)F(x):概率函数取值的累加结果。

②连续型数据
概率密度函数(连续型数据概率函数)f(x):连续型数据,某点的概率为0。只能用某点数据密集程度表示概率分布情况。

  左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

3.4 正态分布(Normal Distribution)

(1)正态分布描述现象

  普通分布,描述某些稳定但又受到一些偶然因素影响的现象。

(2)正态分布概率密度函数

(3)正态分布密度函数数学意义

  • f(x)永远大于0,左右对称,当x=μ,即等于均数时,概率密度函数达到最大值;
  • x离均数越远,f(x)值越小,距离无限远时,趋于0;
  • 标准差σ越大,f(x)值越小,分布形状越“矮”,峰度平坦;反之,越’瘦高‘。

  正态分布由两个参数决定:均数和标准差。均数是位置参数,决定分布集中的位置;标准差是形状参数,决定分布的分散程度。

(4)正态分布统计规律

  • 1倍标准差面积:68.2%
  • 1.96倍标准差:95%
  • 2倍标准差:95.4%
  • 3倍标准差:99.7%,1000大概会有3次错误发生的概率。
  • 6倍标准差:之外的面积为百万分之2。100万份样品出现2次错误。

(5)小概率事件(P<0.05)

  P<0.05,认为差异有统计学意义。对于正态分布来说,两侧面积小于5%。即均数往左往右各1.96倍标准差时,对应的左侧和右侧面积之和就是5%。这个概率很低,一般情况不会发生,认为是小概率事件。

(6)标准正态分布(Standarized Normal Distribution)——μ=0,σ=1

3.5 几个常见分布:t分布、x2分布,F分布

  T检验对应t分布,x2检验对应x2分布,方差分析对应F分布。

(1)T分布

(2)x2分布

(3)F分布

四、数据资料分类

五、描述统计

六、中心极限定理和大数定理

七、假设检验

7.2 零假设和备择假设

零假设(无效假设Null Hypothesis):一般从正面做出假设(不具备XXX,没有XXX等)。

八、参数估计

九、置信区间

十、统计方法串讲

10.1 一般线性模型(General Linear Model)——方差分析与线性回归统计

①t检验、方差分析、线性回归用途

  • t检验——两组均值比较
  • 方差分析——多组均值比较
  • 线性回归——自变量对因变量的影响分析
    ②一般线性模型
    t检验、方差分析、线性回归等都属于一般线性模型,一般线性模型基本形式:

      y:因变量(反应变量、结局变量),x:自变量(解释变量、预测变量)。β0表示截距,反映自变量x=0时,y的均值。β1、β2表示斜率,反映自变量增加1单位,y值变动的大小。
      一般线性模型中,因变量必须是定量的(连续),自变量可以是定量或分类。自变量的不同形式对应不同的统计方法:

十一、正态性和方差齐性

①做正态性检验必要性
  保证样本数据的随机性,因为随机数就是正态分布的。
②正态性和方差齐性含义
  正态性和方差性是经典统计模型应用的两个前提条件,t检验、方差分析、线性回归等都需要满足这两个条件:

  • 正态性(Normality):严格上说是残差要符合正态分布,不过实际中都是对因变量进行正态性检验。
  • 方差齐性(Equality of Variances):即方差相等,自变量x每取一个值,因变量(严格说是残差)的方差基本相等。

11.1 用统计检验方法判断正态性

(1)基于峰度和偏度的SW(Shapiro-Wilk)检验

①峰度和偏度

  • 峰度(Kurtosis):分布形状是平坦还是尖峰,上下维度。
  • 偏度(Skewness):分布形状是否对称,左右维度。
    ②正态分布的峰度和偏度
      正态分布的峰度和偏度均为0。峰度>0,尖峰;峰度<0,平坦峰。偏度>0,右偏态(正偏);偏度<0,左偏态(负偏)。

(2)基于拟合优度KS、CVM、AD检验

KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)、AD(Anderson-Darling)
①拟合优度思想
  基于理论分布与基于实际数据得到的分布之间的差异。这种思想不仅可以用于正态分布,还可以用于其他分布检验。
②正态分布拟合优度检验思路
  先求出正态分布的累积分布函数(CDF,Cumulative Distribution Function)——>样本数据与该函数差别——>差别不大,接近正态分布——>差别较大,样本数据可能不服从正态分布。
③三种方法对“差别”的定义
三种检验都基于此思想,区别在于对“差别”定义:

  • KS:取绝对值
  • CVM:取平方
  • AD:对CVM的改进

④参考网站
KS:KS
python正态检验方法:python正态检验方法

11.2 用描述的方法判断正态性——图形判断

(1)Q-Q图和P-P图

①Q-Q图含义和检验原理
  Q-Q(Quantile-Quantile),分位数-分位数图。横坐标,理论正态分位数,纵坐标,实际数据分位数。
  比较分位数和实际分位数差别。无差别,点集中在一条直线,正态分布。有差别,偏离直线较远。
②P-P图
  P-P(Probability-Probability),和Q-Q类似,用的是累计概率。

(2)茎叶图

(3)用四分位数间距和标准差进行简易判断

  正态分布四分位间距(IQR)和标准差(s)之比大约为1.34。若IQR/s=1.34左右,基本满足正态分布。

11.3 方差分析中方差齐性判断

①方差齐性判断
  就是判断两组或多组的方差是否相等,样本抽样是不是随机的。方差不等会严重影响方差分析的F检验。
②各种检验方法
...................................

十二、T检验

以上是关于《白话统计》——读书笔记_持续补充的主要内容,如果未能解决你的问题,请参考以下文章

《统计学习方法》李航 读书笔记

读书笔记:《持续交付》

第九周读书笔记-补充

《CLR Via C#》读书笔记,持续更新...

统计学习基础(HGL的读书笔记)

Understanding Optimizer Statistics (理解优化器统计信息) 读书笔记