统计基本常用指标整理

Posted xiaodianfanguo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计基本常用指标整理相关的知识,希望对你有一定的参考价值。

基础

总和、平均数、中位数、最大值、最小值、众数
极差(range)、标准差(standard deviation,缩写s或SD)、方差(variance 标准差的平方)

相关系数

pearson相关系数
是研究变量之间线性相关程度的量
scipy.stats.stats.pearsonr(x,y)[0]

spearman相关系数
from scipy import stats
stats.spearmanr([1,2,3,4,5], [5,6,7,8,7])

各种检验

t检验

主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。

ks检验

检验数据是否符合某种分布

卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度
卡方检验:
stats.chisquare(观测值序列, 理论值序列)
卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合
例:

from scipy import stats
observation_value = [10,13,8,9,10,11]
real_value = [10,10,10,10,10,10]
stats.chisquare(observation_value, f_exp = real_value)

**结果**:(statistic=1.5000000000000002, pvalue=0.9130698145443954)

一般p值要求大于0.95

显著性检验

方差分析(ANOVA)又称“变异数分析”或“F检验”

用于两个及两个以上样本均数差别的显著性检验

同分布检验
正态性检验

各种分布

二项分布

服从二项分布的随机变量X表示在n个独立的是/非试验中成功的次数,其中每次试验的成功概率为p。

scipy.stats.binom
numpy.random.RandomState.binomial

np.random.binomial(n, p, size=20)

size为总次数

技术分享图片
n p为公式中的n p

泊松分布

举例:平均每天发生2起,10天发生的次数
rate=2
n = np.arange(0,10)
stats.poisson.pmf(n,rate)
返回的是发生0,1,2...10次的概率

正态分布

生成一个均值为0.5,标准差为5的正态分布,随机选200个点

norm_dist = stats.norm(loc=0.5, scale=5)
data = norm_dist.rvs(size=200)

t检验

注意,这里生成的第二组数据样本大小、方差和第一组均不相等,在运用t检验时需要使用 Welch‘s t-test,即指定ttest_ind中的equal_var=False。

以上是关于统计基本常用指标整理的主要内容,如果未能解决你的问题,请参考以下文章

常用python日期日志获取内容循环的代码片段

C#常用代码片段备忘

最全最详细publiccms常用的代码片段

最全最详细publiccms其他常用代码片段(内容站点)

Spark2 DataFrame数据框常用操作之统计指标:mean均值,variance方差,stddev标准差,corr(Pearson相关系数),skewness偏度,kurtosis峰度((代码

大数据统计分析方法