机器学习笔记——t分布知识点总结

Posted Excaliburer`s Zone

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习笔记——t分布知识点总结相关的知识,希望对你有一定的参考价值。

(原创文章,转载请注明地址:http://www.cnblogs.com/wangkundentisy/p/6539058.html )

1.t分布式统计分布的一种,同卡方分布(χ2分布)、F分布并称为三大分布。

2. t分布又叫student-t分布,常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值。(如果总体的方差已知的话,则应该用正态分布来估计总体的均值。)(所以一个前提是:t分布的样本的总体必须符合正态分布)
3.t分布一般用于小样本(样本量比较小)的情形。
4.假设X服从标准正态分布即X~N(0,1),Y服从自由度n的卡方分布即Y~χ2(n),且X与Y是相互独立的,那么Z=X/sqrt(Y/n)的分布成为自由的为n的t分布,记为Z~t(n).
5.对于Z~t(n),其数学期望E(Z) = 0,n>1;方差D(Z)=n/n-2 , n>2 。
6.特征:
(1).以0为中心,左右对称的单峰分布;
(2).t分布是一簇曲线,其形态变化与n(即其自由度)大小有关。自由度n越小,t分布曲线越低平;自由度n越大,t分布曲线越接近标准正态分布(u分布)曲线,当自由度无限大时,t分布就成了正态分布,如图.
t(n)分布与其密度函数。

 

(3).随着自由度逐渐增大,t分布逐渐接近标准正态分布。
对应于每一个自由度df,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。学生的t分布(或也t分布) ,在概率统计中,在置信区间估计、显著性检验等问题的计算中发挥重要作用。
7.详述:
假设{\\displaystyle X}X是呈正态分布的独立的随机变量(随机变量的期望值是{\\displaystyle \\mu }\\mu,方差是{\\displaystyle \\sigma ^{2}}\\sigma^{2}但未知)。 令:
{\\displaystyle {\\overline {X}}_{n}=(X_{1}+\\cdots +X_{n})/n}\\overline {X}_{n}=(X_{1}+\\cdots +X_{n})/n

样本均值

{\\displaystyle {S_{n}}^{2}={\\frac {1}{n-1}}\\sum _{i=1}^{n}\\left(X_{i}-{\\overline {X}}_{n}\\right)^{2}}{S_{n}}^{2}={\\frac {1}{n-1}}\\sum _{{i=1}}^{n}\\left(X_{i}-\\overline {X}_{n}\\right)^{2}

样本方差

它显示了数量

{\\displaystyle Z={\\frac {{\\overline {X}}_{n}-\\mu }{\\sigma /{\\sqrt {n}}}}}Z={\\frac {\\overline {X}_{n}-\\mu }{\\sigma /{\\sqrt {n}}}}
呈正态分布并且均值和方差分别为0和1。
另一个相关数量
{\\displaystyle T={\\frac {{\\overline {X}}_{n}-\\mu }{S_{n}/{\\sqrt {n}}}}}T={\\frac {\\overline {X}_{n}-\\mu }{S_{n}/{\\sqrt {n}}}}
T的概率密度函数是:
{\\displaystyle f(t)={\\frac {\\Gamma ((\\nu +1)/2)}{{\\sqrt {\\nu \\pi \\,}}\\,\\Gamma (\\nu /2)}}(1+t^{2}/\\nu )^{-(\\nu +1)/2}}f(t)={\\frac {\\Gamma ((\\nu +1)/2)}{{\\sqrt {\\nu \\pi \\,}}\\,\\Gamma (\\nu /2)}}(1+t^{2}/\\nu )^{{-(\\nu +1)/2}}
{\\displaystyle \\nu }\\nu 等于n − 1。 T的分布称为t-分布。参数{\\displaystyle \\nu }\\nu 一般被称为自由度。
{\\displaystyle \\Gamma }\\Gamma 是伽马函数。 如果{\\displaystyle \\nu }\\nu是偶数,
{\\displaystyle {\\frac {\\Gamma ({\\frac {\\nu +1}{2}})}{{\\sqrt {\\nu \\pi }}\\,\\Gamma ({\\frac {\\nu }{2}})}}={\\frac {(\\nu -1)(\\nu -3)\\cdots 5\\cdot 3}{2{\\sqrt {\\nu }}(\\nu -2)(\\nu -4)\\cdots 4\\cdot 2\\,}}\\cdot }{\\displaystyle {\\frac {\\Gamma ({\\frac {\\nu +1}{2}})}{{\\sqrt {\\nu \\pi }}\\,\\Gamma ({\\frac {\\nu }{2}})}}={\\frac {(\\nu -1)(\\nu -3)\\cdots 5\\cdot 3}{2{\\sqrt {\\nu }}(\\nu -2)(\\nu -4)\\cdots 4\\cdot 2\\,}}\\cdot }

如果{\\displaystyle \\nu }\\nu是奇数,

{\\displaystyle {\\frac {\\Gamma ({\\frac {\\nu +1}{2}})}{{\\sqrt {\\nu \\pi }}\\,\\Gamma ({\\frac {\\nu }{2}})}}={\\frac {(\\nu -1)(\\nu -3)\\cdots 4\\cdot 2}{\\pi {\\sqrt {\\nu }}(\\nu -2)(\\nu -4)\\cdots 5\\cdot 3\\,}}\\cdot \\!}{\\displaystyle {\\frac {\\Gamma ({\\frac {\\nu +1}{2}})}{{\\sqrt {\\nu \\pi }}\\,\\Gamma ({\\frac {\\nu }{2}})}}={\\frac {(\\nu -1)(\\nu -3)\\cdots 4\\cdot 2}{\\pi {\\sqrt {\\nu }}(\\nu -2)(\\nu -4)\\cdots 5\\cdot 3\\,}}\\cdot \\!}
T的概率密度函数的形状类似于均值为0方差为1的正态分布,但更低更宽。随着自由度{\\displaystyle \\nu }\\nu的增加,则越来越接近均值为0方差为1的正态分布。
8.t分布置信区间的推导:
假设数量A在当Tt-分布(T的自由度为n − 1)满足
{\\displaystyle \\Pr(-A<T<A)=0.90\\,}\\Pr(-A<T<A)=0.90\\,

这与

{\\displaystyle \\Pr(T<A)=0.95\\,}\\Pr(T<A)=0.95\\,是相同的
A是这个概率分布的第95个百分点

那么

{\\displaystyle \\Pr \\left(-A<{{\\overline {X}}_{n}-\\mu \\over S_{n}/{\\sqrt {n}}}<A\\right)=0.9,}\\Pr \\left(-A<{\\overline {X}_{n}-\\mu \\over S_{n}/{\\sqrt {n}}}<A\\right)=0.9,

等价于

{\\displaystyle \\Pr \\left({\\overline {X}}_{n}-A{S_{n} \\over {\\sqrt {n}}}<\\mu <{\\overline {X}}_{n}+A{S_{n} \\over {\\sqrt {n}}}\\right)=0.9}\\Pr \\left(\\overline {X}_{n}-A{S_{n} \\over {\\sqrt {n}}}<\\mu <\\overline {X}_{n}+A{S_{n} \\over {\\sqrt {n}}}\\right)=0.9
因此μ的90%置信区间为:
\\overline {X}_{n}\\pm A{\\frac {S_{n}}{{\\sqrt {n}}}}
9.分布表格的用法
下表列出了自由度为v 的t-分布的单侧和双侧区间值。例如,当样本数量n=5时,则自由度v=4,我们就可以查找表中以4开头的行。该行第5列值为2.132,对应的单侧值为95%(双侧值为90%)。这也就是说,T小于2.132的概率为95%(即单侧),记为Pr(−∞ < T < 2.132) = 0.95;同时,T值介于-2.132和2.132之间的概率为90%(即双侧),记为Pr(−2.132 < T < 2.132) = 0.9。
这是根据分布的对称性计算得到的,
Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,
因此,
Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.
注意关于表格的最后一行的值:自由度为无限大的t-分布和正态分布等价。
单侧
75%
80%
85%
90%
95%
97.5%
99%
99.5%
99.75%
99.9%
99.95%
双侧
50%
60%
70%
80%
90%
95%
98%
99%
99.5%
99.8%
99.9%
1
1.000
1.376
1.963
3.078
6.314
12.71
31.82
63.66
127.3
318.3
636.6
2
0.816
1.061
1.386
1.886
2.920
4.303
6.965
9.925
14.09
22.33
31.60
3
0.765
0.978
1.250
1.638
2.353
3.182
4.541
5.841
7.453
10.21
12.92
4
0.741
0.941
1.190
1.533
2.132
2.776
3.747
4.604
5.598
7.173
8.610
5
0.727
0.920
1.156
1.476
2.015
2.571
3.365
4.032
4.773
5.893
6.869
6
0.718
0.906
1.134
1.440
1.943
2.447
3.143
3.707
4.317
5.208
5.959
7
0.711
0.896
1.119
1.415
1.895
2.365
2.998
3.499
4.029
4.785
5.408
8
0.706
0.889
1.108
1.397
1.860
2.306
2.896
3.355
3.833
4.501
5.041
9
0.703
0.883
1.100
1.383

(c)2006-2024 SYSTEM All Rights Reserved IT常识