统计学的一些知识
Posted tccbj
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计学的一些知识相关的知识,希望对你有一定的参考价值。
用大概一周时间看完了网易云课堂里的可汗学院的统计学课程,感觉可汗讲的还是非常容易理解的,解开了我许多之前只会套公式却不知道为什么的疑惑。
考虑集中趋势的方式:平均数,中位数,众数,中程数(midrange):(最大+最小)/2
箱线图:先找到一组数据的中位数,再找前一半和后一半的中位数,得到四个部分,中间两部分是box,头尾是whisker
二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验,或称为伯努利概型。单个伯努利试验是没有多大意义的,然而,当我们反复进行伯努利试验,去观察这些试验有多少是成功的,多少是失败的,事情就变得有意义了,这些累计记录包含了很多潜在的非常有用的信息。
数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。本质是总体无穷时的总体均值
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。样本数量足够多时,样本均值趋近于总体均值,或者说随机变量的期望值
大数定律:对独立同分布的随机变量取样,当样本容量逐渐增大,趋向于无穷,样本均值也无限趋近于总体的均值,即样本期望收敛于真实的期望
中心极限定理:对任意具有确定均值和方差的随机变量,不管其分布如何,取其中n个变量作为一次取样,当取样次数趋向无穷时,取样的均值会近似于正态分布规律,均值与随机变量均值相同,标准差为随机变量的标准差除以根号n,n越大越接近于正态分布
95%置信区间是对总体均值的一个估计,意思是计算出来的估计区间有95%的机会将总体均值包含在其中,要注意总体均值是确定的,只是未知,因此不能说95%置信区间是这个区间有95%的概率将总体均值包含在里面
根据最小平方误差SE(y值与拟合y值之差)做线性回归得到的拟合线将通过(x均值,y均值)这一点和(x平方的均值除以x均值,xy均值除以x均值)
协方差:COV(X,Y)=E[(X-E[X])*(Y-E[Y])],展开化简后可推导出回归线的斜率等于COV(X,Y)/COV(X,X)=COV(X,Y)/VAR(X)
方差分析是用于两个及两个以上样本均数差别的显著性检验,可以判断是组间差异还是组内差异对总差异的影响大,假设有n组数据,每组m个数据,SST是总差异(每个数据与样本总体均值之差的平方和),自由度nm-1,SSW是组内差异(每个数据与各组均值之差的平方和),自由度n(m-1),SSB是组间差异(每组数据均值与样本总体均值之差的平方和),自由度n-1
卡方分布是一定数量的随机变量的平方和,皮尔逊卡方检验就是检验样本是否符合给定的分布,即检验实际频数和理论频数是否较为接近,检验统计量为X^2=∑{(实际频数-理论频数的)^2/理论频数},它近似服从自由度为V =组格数-估计参数个数-1 的卡方分布
F统计量=组间差异除以组间自由度/组内差异除以组内自由度=(SSB/(n-1))/(SSW/n(m-1)),是两个卡方分布之比
相关性和因果性:相关性是指A和B有可能一同发生,但并不能确定是哪个的出现造成了另一个的出现,因果性是指A导致B,做研究时要注意区分这两者的区别
归纳推理(inductive reasoning)是寻找规律或趋势,然后推广,但并不能确定趋势是否会继续,只是假设它会继续。演绎推理(deductive reasoning)是从一些数据或事实出发,演绎得到其它正确的事实,是肯定正确的
以上是关于统计学的一些知识的主要内容,如果未能解决你的问题,请参考以下文章