统计学一:描述统计
Posted momo798
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计学一:描述统计相关的知识,希望对你有一定的参考价值。
待处理数据的缺失和错误会极大地影响后续的数据分析,因:我们首先需要评估数据质量,进行诸如缺失值发现、极端值诊断、统计分布(样本数据的分布情况)观察和描述性统计(包括均值、方差、标准差、偏度、峰度等)等操作。
在本课节中,老师从北京市空气质量监测数据集入手,系统介绍以上知识点,帮助学员获得洞察数据的能力,包括:
-
数据质量评估
-
极端值诊断
-
统计分布
-
基本描述统计
截面数据(cross-section data)是指在同一时间(时期或时点)截面上反映一个总体的一批(或全部)个体的同一特征变量的观测值,是样本数据中的常见类型之一。例如,工业普查数据、人口普查数据、家庭收入调查数据。在数学,计量经济学中应用广泛。
![技术图片](https://image.cha138.com/20210718/9d44d98aa5e64dd485ec0c719c69a5c7.jpg)
监测站点:35个;
忽略时间上的差异:将供暖季120天的数据全部作为截面数据;
![技术图片](https://image.cha138.com/20210718/19a47c405a494b2eaf2c8bcd2dc799ca.jpg)
第一步:样本数据的描述统计;
剔除缺失数据:
![技术图片](https://image.cha138.com/20210718/fa169ccaba32425583acee39055b499b.jpg)
横坐标:分组;纵坐标:频率;
曲线:概率密度曲线;
大部分都为样本分布;
![技术图片](https://image.cha138.com/20210718/65a072d61e9a4e0dae77aa973c051290.jpg)
对称分布/左偏分布/右偏分布:较低的线在哪边就是哪偏分布;
统计量刻画分布特征;
离差平方和:越大,离散程度越大;
![技术图片](https://image.cha138.com/20210718/358f62a5e21a467faae0abad2a3c8558.jpg)
极端值;
陡峭程度不同,也就是标准差不同时,面积不同:通过标准正态分布来计算——标准化处理;
![技术图片](https://image.cha138.com/20210718/38f205c9202e48718dc1a425e7c2d604.jpg)
标准正态分布:均值为0,标准差为1;
转为标准正态分布的目的:算面积;
任何一个正态分布,都可以转为标准正态分布;
![技术图片](https://image.cha138.com/20210718/a9788cb3067e4713b3f8ec6775282cce.jpg)
SK:偏态系数;
大部分PM2.5值都在0-100之间;
红框框住的左边为下四分位数;
红框框住的为极端值;
![技术图片](https://image.cha138.com/20210718/29ed688197044f35b0f8ca3b591b12c5.jpg)
对于非对称性分布:用1.5的四分位差的标准来算;
以上是关于统计学一:描述统计的主要内容,如果未能解决你的问题,请参考以下文章