统计学——描述性统计之基本的统计量

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计学——描述性统计之基本的统计量相关的知识,希望对你有一定的参考价值。

参考技术A 统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。跟我一起从零开始学习吧~

首先我们学之前要知道统计学主要分为三类:

本篇文章主要涵盖描述性统计的知识点

均值大家再熟悉不过了,pandas 我们用mean 、excel我们用average,这里就不介绍了
中位数:从小到大排序,找到中间的数据。如果中间有两个数,中位数就是两个数的均值
众数:哪个数字出现次数最多,就是众数

举个栗子

数据中的100,称为离群值(明显与别的值的不同)

极差:指数字分开的有多远,最大数-最小数(结果越小,数字间越紧密)
中程数:取最大数+最小数的平均值

以上是对观察数据的集中趋势很好的一种作图方式,其实和箱线图很相似。

起初遇到数学公式,心里是退缩的,其实发现,尝试着慢慢去理解,真的不难。加油~

我们通常用底下的公式,表示对N个X求和,从i = 1开始,再除以N

样本均值和样本均值唯一的区别就是N,n,N表示大量数据,n表示少量数据

目的:为了表示数据集中数据点的离散程度

以上内容,如果能看懂,说明统计学入门了,继续前行~
希望本文的内容对大家的学习或者工作能带来一定的帮助,每天进步一点点,加油。

统计思维:程序员数学之概率统计

第一章:

经验之谈:

观察的数量太少、选择偏差、确认偏差、不准确

更好的做法-统计方法

收集数据,使用大型全国性调查的数据

描述性统计,计算能总结数据的统计量

探索性数据分析,寻找模式、差异和其他能解决问题的而特征

假设检验,评判影响是否真实

估计,样本推断整体

 

术语

经验之谈  个人随意收集的证据

直观效应  表示发生了某种有意思的事情的度量或汇总统计量

人为    由于偏差、测量错误或其他错误导致的直观效应

队列    一组被调查者

横断面研究  收集群体在特定时间点的数据的研究

字段  数据库中组成记录的变量名称

纵贯研究  跟踪群体,随着时间推移对同一组人反复采集数据的研究

过采样  为避免样本量过少,而增加某个子群体代表的数量

总体  要研究的一组事物,通常是一群人

原始数据  未经或只经过很少的检查 计算或解读而采集和重编码的值

重编码  通过对原始数据进行计算或者其他逻辑处理得到的值

记录  数据库中关于一个人或其他对象的信息的集合

代表性  如果人群中的每个成员都有同等的机会进入样本,那么这个样本就具有代表性

被调查者  参与调查的人

样本  总体的一个子集,用于收集数据

统计显著  若一个直观效应不太可能是由随机因素引起的,就i是统计显著的

汇总统计量  通过计算将一个数据集归结到一个数字,而这个数字能表示数据的某些特点

表   数据库中若干记录的集合

 

以上是关于统计学——描述性统计之基本的统计量的主要内容,如果未能解决你的问题,请参考以下文章

R语言描述性统计分析:基本统计分析

(数据科学学习手札19)R中基本统计分析技巧总结

数据分析概况02:《深入浅出统计学》——基本统计量1

SparkMLlib----数理统计的基本概念

概率论与数理统计:数理统计的基本概念

0002.统计描述分析