数据的统计分析与描述

Posted 阿杜&eason

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据的统计分析与描述相关的知识,希望对你有一定的参考价值。

统计的任务  -->  由样本推断总体

1.频数表与直方图  -->将数据取值划分区间,统计每个区间出现的次数

  1)读入数据并转换为向量

  2)[N,X]=hist(Y,M)  Y行列均可、M为划分的份数,默认为10、N返回M个小区间的频数、X返回M个小区间的中点

2.统计量  -->加工后的反应样本数量特征的函数

  1)表示位置的统计量——算术平均值和中位数

    mean(x)返回x的均值、median(x)返回中位数

  2)表示变异程度的统计量——标准差、方差和极差

    a.标准差  -->各个数据与均值偏离程度的度量  std(x)

    b.方差  -->标准差的平方  var(x)

    c.极差  -->最大值与最小值的差值  range(x)

  3)中心矩、表示分布形状的统计量——偏度和峰度  moment(x,order)返回order阶中心距

    a.x的标准化变量(减去期望除以方差)的三阶中心矩成为偏度  -->反映了分布的对称性,>0为右偏态,<0为左偏态  skewness(x)

    b.四阶中心距为峰度  -->正态分布的峰度为3,若比3大的多,说明样本中含有较多远离均值的数据  kurtosis(x)

3.分布函数、密度函数、上分位数:令分布函数F(x)=1-α的x值

4.常见的几个分布

  1)正态分布:0.68,0.95,0.997  norm

  2)卡方分布:n个相互独立的标准正态分布变量的平方和服从卡方分布  chi2

  3)t分布  t

  4)F分布  f

  5)Matlab提供5类函数:pdf概率密度、cdf分布函数、inv分布函数反函数、stat均值与方差、rnd随机数生成

5.参数估计  已知总体的分布,由样本推断总体的参数

  1)点估计  -->由样本确定总体参数的一个数值  评价:无偏性、最小方差性、有效性  方法:矩法、极大似然法

  2)区间估计  -->给出一个区间,使得待估参数落在此区间内的概率为1-α,该区间成为置信区间,1-α为置信水平,α为显著性水平

    对于正态总体:[mu,sigma,muci,sigmaci]=normfit(x,alpha),x为样本,alpha为显著性水平

6.假设检验  对于总体的某些性质,提出假设,根据样本对假设做出判断是接受还是拒绝

  1)方差已知,关于期望的检验(Z检验)  [h,p,ci]=ztest(x,mu,sigma,alpha,tail)  h=0对于H0接受,p表示在H0假设下样本均值出现的概率,p越小H0越值得怀疑,ci是置信区间,tail是三种检验方式

  2)方差未知,关于期望的检验(t检验)  [h,p,ci]=ttest(x,mu,alpha,tail)

  3)两个正态总体的均值差的检验  [h,p,ci]=ttest2(x,y,alpha,tail)  方差不等时:h=ttest2(x,y,alpha,tail,‘unequal‘)

  4)分布拟合检验

    a.卡方检验  H0:总体x的分布函数是F(x)  若形式已知,参数未知,先用极大似然法估计参数,然后做检验

以上是关于数据的统计分析与描述的主要内容,如果未能解决你的问题,请参考以下文章

Python数据分析与可视化Pandas统计分析(实训二)

【R语言入门与数据分析-5】 数据分析实战

数据结构与算法分析_Java语言描述(第2版)pdf

数据结构与算法分析 java语言描述(原书第3版)pdf

商业智能与数据分析面经 | 卡耐基梅隆大学商业智能与数据分析面经分享

【数学建模算法】(29)数据的统计描述和分析(上)