20190809统计学重点知识归纳
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了20190809统计学重点知识归纳相关的知识,希望对你有一定的参考价值。
参考技术A 一、统计学1、基础知识
1.1、基本定义
1.1.1 集中趋势:一组数据向其中心值靠拢的倾向和程度.注:低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据
1.1.2 众数:一组数据中出现次数最多的变量值。一组数据可能没有众数或有多个众数,不受极端值的影响,主要用于分类数据。注:若是分类数据,是找发生频数最多的类别名
1.1.3 中位数:排序后处于中间位置上的值。不受极端值的影响,主要用于顺序数据。
①、注:若是分类数据或顺序数据,先对分类和顺序排序,然后对频数做累加,再根据和值+1的和除2得出Me对应的累计频数,最后找出第一个大于等于Me值所处位置的类别名或顺序号
②、公式:
位置确定 =
数值确定Me= (n为奇数) 或
Me=
1.1.4 四分位数:排序后处于25%和75%位置上的值。不受极端值的影响。计算公式
1.1.5、平均数,也称均值,一组数据的均衡点所在。易受极端值影响,有平方平均数、算术平均数(简单平均数和加权平均数)、几何平均数和调和平均数四种类型。根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为 。公式:
1.2、常用统计计算公式
1.3 异众比率:对分类数据离散程度的程度,计算的是非众数组的频数占总频数的比例。公式 = ,用于衡量众数的代表性
1.4 四分位差:对顺序数据离散程度的测度,也成为内距或四分间距,用于衡量中位数的代表性。公式 :IQR(或 )= 或 =
1.5 极差:一组数据的最大值与最小值之差,公式R=max( )-min( )
1.6 标准化 和归一化
1.6.1也称标准化值,对某一个值在一组数据中相对位置的度量,可用于判断一组数据是否有离群点,用于对变量的标准化处理,公式 。
1.6.2 z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1。
1.6.3 对称分布经验法则
1.6.4 不对称分布采用切比雪夫不等式判断
1.6.5 归一化:使物理系统数值的 绝对值 变成某种 相对值 关系,范围是[0,1]。公式=
1.6.6 标准化和归一化的作用:
①、消除量纲的影响。对于有些算法,比如k-近邻 k-均值 支持向量机等等会涉及到某种距离的度量,量纲会带来
很大的影响。
②、 对于某些使用梯度下降算法来进行优化的算法,数据归一化或者标准化后,可以加速梯度下降的收敛,关于梯度下降算法参考文献: https://www.cnblogs.com/LUOyaXIONG/p/11244897.html 。
1.7 离散系数:标准差与其相应的均值之比,对数据相对离散程度的测度;消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较。公式
1.8 分布函数
1.8.1 定义:设X是一个随机变量,x是任意实数。函数 F(x) = 𝑃 (X ≤ x) 称为 X 的分布函数,表示随机变量
X 的值小于等于 x 的概率。
对于任意的 x1,x2 (x1<x2),有:
𝑃 (x1 < X ≤ x2 )= 𝑃 (X ≤ x2 )− 𝑃( X≤ x1)= F(x2)-F(x1)
𝑃 (X> x1 )= 1 − 𝑃( X≤ x1) = 1 −F(x1)
注:F(x)=
1.8.2 性质:
f(x) ≥ 0
P(a<x≤b)=
注: 概率密度函数在个别点上的取值不会影响随机变量的表现;连续型的随机变量取值在任意一点的概率都是0
1.9 正态分布(也叫高斯分布)
1.9.1 公式 N(μ, )~
1.9.2 标准正态分布:μ=0,σ=1,N(0,1)~
1.9.3 正态分布的特点:
μ 描述正态分布的集中趋势;
σ 描述正态分布的离散程度,σ越大,数据分布越分散;σ越小,数据分布越集中。均值 E(X)=μ,方差 Var(X)= ,密度函数关于平均值对称,平均值是它的众数以及中位数
1.9.4 正态分布经验法则:
正态分布N 𝜈,𝜎 2 函数曲线下的面积 :
• 68.27%的面积在平均值左右的一个标准差范围内
• 95.45%的面积在平均值左右两个标准差2σ的范围内
• 99.73%的面积在平均值左右三个标准差3σ的范围内
• 99.99%的面积在平均值左右四个标准差4σ的范围内
1.10 分布
1.10.1 定义:
设 X~N(μ, ),则 ~ N(0,1);令 Y= ,则 Y 服从自由度为1的 分布,即 Y~ 。 当总体X~ ,从中抽取容量为n的样本,则 ~ (n-1 是自由度)
1.10.2 分布的性质和特点:
1.10.3 分布图示:
随着样本数增大(n≥20),越接近正态分布
1.11 t分布
1.11.1 定义
1.11.2 t分布图示
1.12 F分布
1.12.1 F分布定义
1.12.2 F分布图示
1.13 中心极限定理
1.14 单个样本方差的分布服从自由度为 (n -1) 的 分布
1.15 单个样本比例的抽样分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似
1.16 两个样本均值之差的抽样分布
1.17 两个样本方差比的抽样分布 服从F分布
1.18 置信区间,用 (1-α)%表示,α为是总体参数未在区间内的比例
1.19 评价估计量的三个标准
1.19.1 无偏性(unbiasedness):估计量抽样分布的数学期望等于被估计的总体参数
1.19.2 有效性 (efficiency):对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
1.19.3 一致性 (consistency):随着样本量的增大,估计量的值越来越接近被估计的总体参数
2、参数估计
2.1 点估计求法
2.1.1 先确定估计量(即确定函数),再用矩估计法或最大似然估计法求出最有解(目前常用方法是最大似然估计法)。
2.1.2 矩估计公式
2.1.3 最大似然估计法详解
2.1.3.1 离散型数据
2.1.3.2 连续型数据
2.1.3.3 求最大似然估计的步骤
2.1.3.3 总体服从N(μ, )正态分布的最大似然估计量的公式
2.1.3.4 最大似然估计的性质
3、区间估计
3.1 总体均值的区间估计
3.1.1 大样本数据的定义
3.1.2 大样本数据的例子
3.1.3 小样本数据的定义
3.1.4 小样本数据的例子
3.2 总体比例的区间估计
3.2.1 定义
3.2.2 例子
3.3 总体方差的区间估计
3.3.1 定义
3.3.2 例子
3.4 总体方差的区间估计
3.4.1 独立大样本数据的定义
3.4.2 独立大样本数据的例子
3.4.3 独立小样本数据( )的定义
3.4.4 独立小样本数据( )的例子
3.4.5 独立小样本数据( )的定义
3.4.6 独立小样本数据( )的例子
3.4.7 匹配样本数据的定义
3.4.8 匹配样本数据的例子
3.5 两个总体比例之差的区间估计
3.5.1 定义
3.5.2 例子
3.6 两个总体方差比的区间估计
3.6.1 定义
3.6.2 例子
3.7 估计总体均值时样本量的确定
3.7.1 定义
3.7.2 例题
3.8 估计总体比例时样本量的确定
3.8.1 定义
3.8.2 例题
3.9 区间估计总结
4、假设检验
4.1 两类错误(决策风险)
4.1.1 第一类错误(弃真错误)
原假设为真时拒绝原假设,会产生一系列后果,第一类错误的概率为α(即显著性水平)
4.1.2 第二类错误(取伪错误)
原假设为假时接受原假设,第二类错误的概率为β
注: 一般承认第一类错误,避免出现第二类错误。用一句俗话形容就是‘宁愿错抓一个好人,绝不放过一个坏人’
4.2 假设检验的流程
4.2.1 提出假设
:是某个结果(用来做验证的)
:是 的反结果
4.2.2 确定适当的检验统计量
4.2.2.1 选择统计量的方法与参数估计相同,需考虑
①、是大样本还是小样本
②、总体方差已知还是未知
4.2.2.2 检验统计量的基本形式为
知识点归纳 | 时间序列
第二十六章 时间序列
1、时间序列,也称动态数列,将某一统计指标在各个不同时间上的数值按照时间先后顺序编制形成的数列。
2、时间序列的分类:1)绝对数时间序列:时期序列、时点序列 2)相对数时间序列 3)平均数时间序列
3、平均发展水平1)绝对数时间序列平均数的计算包括时期序列、时点序列①连续时点计算②间接时点计算 2)相对数时间序列:是派生数列,由2个以上绝对数对比形成。3)增长量:①逐期增长量②累计增长量 4)平均增长量。
4、时间序列的速度分析:1)发展速度①定基发展速度②环比发展速度 2)增长速度①定基发展速度②环比发展速度 3)平均发展速度 4)平均增长速度 5)速度的分析与应用,出现0或负数,不宜计算速度。增长1%的绝对值=逐期增长量/环比增长速度。
5、平滑预测法:目的消除时间序列的不规则分成引起的随机波动。方法包括1)移动平均法2)指数平滑法。
| 编辑:万题库小凯
| 来源:考试吧整理
以上是关于20190809统计学重点知识归纳的主要内容,如果未能解决你的问题,请参考以下文章