统计学基础
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计学基础相关的知识,希望对你有一定的参考价值。
统计学基础(1)
统计学:
统计学可以分为:描述统计学和推断统计学
描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分、最高分、各个分段的人数分布等,也是属于描述统计学的范围。
推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。
集中趋势:
对于一组数据,如果只容许使用一个数字去代表这组数据,那么选择数据的中心,即反映数据集中趋势的统计量。
均值:算数平均数,描述平均水平。
中位数:将数据按大小排列后位于正中间的数,描述中等水平。(奇数个数选中间位置的数,偶数个数选中间两个数的算术平均数)
众数:数据中出现最多的数,描述一般水平。(可能存在多个众数,也可能不存在众数)(众数不仅适用于数值型数据,对于非数值型数据也同样适用)
|
优点 |
缺点 |
均值 |
充分利用所有数据,适用性强 |
容易受到极端值影响 |
中位数 |
不受极端值影响 |
缺乏敏感性 |
众数 |
数据具有明显集中趋势时代表性好 不受极端值影响 |
缺乏唯一性:可能有一个、两个或没有 |
离散程度的描述:
比较两组数据:A-1 2 5 8 9 B-3 4 5 6 7
两组数据的均值都是5,但是可以看出B组的数据与5更加接近。显然仅用描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量。
极差:最大值-最小值,简单地描述数据的范围大小。
方差:描述数据的离散程度,数据离中心越远越离散。
标准差:方差开平方,有效地避免因单位平方而引起的度量问题。
直方图:
找出最大值和最小值,确定数据的范围。
整理数据,将数据按照成绩分为几组(一般分为5~10组)。做出频数分布表。
根据频数分布表画出频数直方图。(或频率直方图,纵坐标为频率/组距。频率=频数/总数,组距是分组的极差)
箱线图:
下四分位数:Q1,所有数据按从小到大排序排在25%位置的数字。
上四分位数:Q3,所有数据按从小到大排序排在75%位置的数字。
四分位距:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量。
异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值。
上边缘:除异常点以外的数据中的最大值。
下边缘:除异常点意外的数据中的最小值。
茎叶图:
茎叶图可以在保留全部数据信息的情况下,直观地显示出数据的分布情况。
线图:
以时间为横坐标,变量为纵坐标,反映变量随时间推移的变化趋势。
柱形图:
显示一段时间内的数据变化或显示各项之间的比较情况。
饼图:
根据各项所占百分比决定在饼图中的扇形面积。
以上是关于统计学基础的主要内容,如果未能解决你的问题,请参考以下文章