数据分析统计学基础
Posted 废才数据挖掘
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析统计学基础相关的知识,希望对你有一定的参考价值。
统计学在数据分析的地位不言而喻,作为数据分析师必备入门基础知识,小编本次推文,就给大家介绍几种在统计学中常见的假设检验。
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。假设检验种类包括:t检验,Z检验,卡方检验,F检验等等。
假设检验的基本思想
假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。
小概率原理
如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。
1.假设的形式
H0——原假设
原假设亦称待验假设、虚无假设、解消假设,一般记为Ho。统计学的基本概念之一假设检验中,待检验的有关总体分布的一项命题的假设称为原假设。
H1——备择假设
备择假设是统计学的基本概念之一,其包含关于总体分布的一切使原假设不成立的命题。备择假设亦称对立假设、备选假设。
假设检验的种类
1. t检验
t检验成立条件:用小样本(如样本量小于30)总体服从N~(μ,σ^2)正态分布。检验总体参数,特点是在总体方差不知道的情况下,可以检验样本平均数的显著性,分为单侧检验与双侧检验。当为双样本检验时,在两样本t检验中要用到F检验。
我们来举一个栗子:
一手机厂家在其宣传广告中声称他们的手机待机时间平均值为71.5小时,质检部门检查该厂生产的这种手机6部,得到的待机时间为(α取0.05)
69,68,72,70,66,75
我们假设H0 μ>=71.5,H1<71.5
根据公式带入 X拔=70,s^2=10,μ=71.5
查表可知tα(n-1)=tα(5)=2.015
我们最后计算的t=-1.162>-tα(n-1)
所以我们接受H0假设,即不能认为该广告具有虚假宣传功能
2.Z检验
Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。当已知标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验。Z检验又叫u检验,大家是不是觉得这个Z检验跟刚才小编说的t检验很相似呢,Z检验是在总体方差已知的情况下使用
3.F检验
F检验最常用的别名叫做联合假设检验,此外也称方差比率检验、方差齐性检验。它是一种在零假设之下,统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。
F=S2/S2'即两个样本方差比
4.卡方检验
卡方检验的基本思想就是观察并检验统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合,卡方检验一般在类别型变量中使用。
假设检验两类错误
接受或拒绝H0,都可能犯错误
I类错误——弃真错误,发生的概率为α
II类错误——取伪错误,发生的概率为β
α大β就小,α小β就大
基本原则:力求在控制α前提下减少β
假设检验的一般步骤
1. 提出检验假设又称无效假设,符号是H0;备择假设的符号是H1。H0:样本与总体或样本与样本间的差异是由抽样误差引起的;H1:样本与总体或样本与样本间存在本质差异;预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。
2. 选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
3. 根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。小编在这里就不赘述了。
以上是关于数据分析统计学基础的主要内容,如果未能解决你的问题,请参考以下文章