《白话统计》——读书笔记_持续补充
Posted 数据の变异
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《白话统计》——读书笔记_持续补充相关的知识,希望对你有一定的参考价值。
三、分布
3.1 累计函数和概率密度函数
参考网站:累计函数和概率密度函数
①离散型数据
概率函数(概率分布、分布律):离散随机变量X取不同的值,对应不同的概率值。
概率分布函数(累计概率函数)F(x):概率函数取值的累加结果。
②连续型数据
概率密度函数(连续型数据概率函数)f(x):连续型数据,某点的概率为0。只能用某点数据密集程度表示概率分布情况。
左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。
3.4 正态分布(Normal Distribution)
(1)正态分布描述现象
普通分布,描述某些稳定但又受到一些偶然因素影响的现象。
(2)正态分布概率密度函数
(3)正态分布密度函数数学意义
- f(x)永远大于0,左右对称,当x=μ,即等于均数时,概率密度函数达到最大值;
- x离均数越远,f(x)值越小,距离无限远时,趋于0;
- 标准差σ越大,f(x)值越小,分布形状越“矮”,峰度平坦;反之,越’瘦高‘。
正态分布由两个参数决定:均数和标准差。均数是位置参数,决定分布集中的位置;标准差是形状参数,决定分布的分散程度。
(4)正态分布统计规律
- 1倍标准差面积:68.2%
- 1.96倍标准差:95%
- 2倍标准差:95.4%
- 3倍标准差:99.7%,1000大概会有3次错误发生的概率。
- 6倍标准差:之外的面积为百万分之2。100万份样品出现2次错误。
(5)小概率事件(P<0.05)
P<0.05,认为差异有统计学意义。对于正态分布来说,两侧面积小于5%。即均数往左往右各1.96倍标准差时,对应的左侧和右侧面积之和就是5%。这个概率很低,一般情况不会发生,认为是小概率事件。
(6)标准正态分布(Standarized Normal Distribution)——μ=0,σ=1
3.5 几个常见分布:t分布、x2分布,F分布
T检验对应t分布,x2检验对应x2分布,方差分析对应F分布。
(1)T分布
(2)x2分布
(3)F分布
四、数据资料分类
五、描述统计
六、中心极限定理和大数定理
七、假设检验
7.2 零假设和备择假设
零假设(无效假设Null Hypothesis):一般从正面做出假设(不具备XXX,没有XXX等)。
八、参数估计
九、置信区间
十、统计方法串讲
10.1 一般线性模型(General Linear Model)——方差分析与线性回归统计
①t检验、方差分析、线性回归用途
- t检验——两组均值比较
- 方差分析——多组均值比较
- 线性回归——自变量对因变量的影响分析
②一般线性模型
t检验、方差分析、线性回归等都属于一般线性模型,一般线性模型基本形式:
y:因变量(反应变量、结局变量),x:自变量(解释变量、预测变量)。β0表示截距,反映自变量x=0时,y的均值。β1、β2表示斜率,反映自变量增加1单位,y值变动的大小。
一般线性模型中,因变量必须是定量的(连续),自变量可以是定量或分类。自变量的不同形式对应不同的统计方法:
十一、正态性和方差齐性
①做正态性检验必要性
保证样本数据的随机性,因为随机数就是正态分布的。
②正态性和方差齐性含义
正态性和方差性是经典统计模型应用的两个前提条件,t检验、方差分析、线性回归等都需要满足这两个条件:
- 正态性(Normality):严格上说是残差要符合正态分布,不过实际中都是对因变量进行正态性检验。
- 方差齐性(Equality of Variances):即方差相等,自变量x每取一个值,因变量(严格说是残差)的方差基本相等。
11.1 用统计检验方法判断正态性
(1)基于峰度和偏度的SW(Shapiro-Wilk)检验
①峰度和偏度
- 峰度(Kurtosis):分布形状是平坦还是尖峰,上下维度。
- 偏度(Skewness):分布形状是否对称,左右维度。
②正态分布的峰度和偏度
正态分布的峰度和偏度均为0。峰度>0,尖峰;峰度<0,平坦峰。偏度>0,右偏态(正偏);偏度<0,左偏态(负偏)。
(2)基于拟合优度KS、CVM、AD检验
KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)、AD(Anderson-Darling)
①拟合优度思想
基于理论分布与基于实际数据得到的分布之间的差异。这种思想不仅可以用于正态分布,还可以用于其他分布检验。
②正态分布拟合优度检验思路
先求出正态分布的累积分布函数(CDF,Cumulative Distribution Function)——>样本数据与该函数差别——>差别不大,接近正态分布——>差别较大,样本数据可能不服从正态分布。
③三种方法对“差别”的定义
三种检验都基于此思想,区别在于对“差别”定义:
- KS:取绝对值
- CVM:取平方
- AD:对CVM的改进
④参考网站
KS:KS
python正态检验方法:python正态检验方法
11.2 用描述的方法判断正态性——图形判断
(1)Q-Q图和P-P图
①Q-Q图含义和检验原理
Q-Q(Quantile-Quantile),分位数-分位数图。横坐标,理论正态分位数,纵坐标,实际数据分位数。
比较分位数和实际分位数差别。无差别,点集中在一条直线,正态分布。有差别,偏离直线较远。
②P-P图
P-P(Probability-Probability),和Q-Q类似,用的是累计概率。
(2)茎叶图
(3)用四分位数间距和标准差进行简易判断
正态分布四分位间距(IQR)和标准差(s)之比大约为1.34。若IQR/s=1.34左右,基本满足正态分布。
11.3 方差分析中方差齐性判断
①方差齐性判断
就是判断两组或多组的方差是否相等,样本抽样是不是随机的。方差不等会严重影响方差分析的F检验。
②各种检验方法
...................................
十二、T检验
以上是关于《白话统计》——读书笔记_持续补充的主要内容,如果未能解决你的问题,请参考以下文章