基础
总和、平均数、中位数、最大值、最小值、众数
极差(range)、标准差(standard deviation,缩写s或SD)、方差(variance 标准差的平方)
相关系数
pearson相关系数
是研究变量之间线性相关程度的量
scipy.stats.stats.pearsonr(x,y)[0]
spearman相关系数
from scipy import stats
stats.spearmanr([1,2,3,4,5], [5,6,7,8,7])
各种检验
t检验
主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。
ks检验
检验数据是否符合某种分布
卡方检验
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度
卡方检验:
stats.chisquare(观测值序列, 理论值序列)
卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合
例:
from scipy import stats
observation_value = [10,13,8,9,10,11]
real_value = [10,10,10,10,10,10]
stats.chisquare(observation_value, f_exp = real_value)
**结果**:(statistic=1.5000000000000002, pvalue=0.9130698145443954)
一般p值要求大于0.95
显著性检验
方差分析(ANOVA)又称“变异数分析”或“F检验”
用于两个及两个以上样本均数差别的显著性检验
同分布检验
正态性检验
各种分布
二项分布
服从二项分布的随机变量X表示在n个独立的是/非试验中成功的次数,其中每次试验的成功概率为p。
scipy.stats.binom
numpy.random.RandomState.binomial
np.random.binomial(n, p, size=20)
size为总次数
n p为公式中的n p
泊松分布
举例:平均每天发生2起,10天发生的次数
rate=2
n = np.arange(0,10)
stats.poisson.pmf(n,rate)
返回的是发生0,1,2...10次的概率
正态分布
生成一个均值为0.5,标准差为5的正态分布,随机选200个点
norm_dist = stats.norm(loc=0.5, scale=5)
data = norm_dist.rvs(size=200)
t检验