如何计算一个数字与平均值的标准差？

Posted 2023-03-12

技术标签:

【中文标题】如何计算一个数字与平均值的标准差？【英文标题】：How to calculate how many standard deviations a number is from the mean? 【发布时间】：2015-04-09 03:37:14 【问题描述】：

我有一个大小为 (61964, 25) 的矩阵。这是一个示例：

array([[  1.,   0.,   0.,   4.,   0.,   1.,   0.,   0.,   0.,   0.,   3.,
          0.,   2.,   1.,   0.,   0.,   3.,   0.,   3.,   0.,  14.,   0.,
          2.,   0.,   4.],
       [  0.,   0.,   0.,   1.,   2.,   0.,   0.,   0.,   0.,   0.,   1.,
          0.,   2.,   0.,   0.,   0.,   0.,   0.,   0.,   0.,   5.,   0.,
          0.,   0.,   1.]])

Scikit-learn 提供了一个有用的功能，前提是我们的数据是正态分布的：

from sklearn import preprocessing

X_2 = preprocessing.scale(X[:, :3])

然而，我的问题是我必须以行为基础——这不仅包含 25 个观察值——因此正态分布在这里不适用。解决方案是使用 t-distribution，但我如何在 Python 中做到这一点？

通常，值从 0 到 20。当我看到异常高的数字时，我会过滤掉整行。以下直方图显示了我的实际分布情况：

【问题讨论】：

Python 3.4 有一个新模块 [statistics][1]，它将为您解决问题：[1]：docs.python.org/3/library/statistics.html 【参考方案1】：

scipy.stats 具有函数zscore，它允许您计算一个值有多少标准偏差高于平均值（通常称为标准分数或Z分数 em>)。

如果 arr 是您问题中的示例数组，那么您可以计算每行 25 的 Z 分数，如下所示：

>>> import scipy.stats as stats
>>> stats.zscore(arr, axis=1)
array([[-0.18017365, -0.52666143, -0.52666143,  0.8592897 , -0.52666143,
        -0.18017365, -0.52666143, -0.52666143, -0.52666143, -0.52666143,
         0.51280192, -0.52666143,  0.16631414, -0.18017365, -0.52666143,
        -0.52666143,  0.51280192, -0.52666143,  0.51280192, -0.52666143,
         4.32416754, -0.52666143,  0.16631414, -0.52666143,  0.8592897 ],
       [-0.43643578, -0.43643578, -0.43643578,  0.47280543,  1.38204664,
        -0.43643578, -0.43643578, -0.43643578, -0.43643578, -0.43643578,
         0.47280543, -0.43643578,  1.38204664, -0.43643578, -0.43643578,
        -0.43643578, -0.43643578, -0.43643578, -0.43643578, -0.43643578,
         4.10977027, -0.43643578, -0.43643578, -0.43643578,  0.47280543]])

此计算使用每行的总体均值和标准差。要改用样本方差（与 t 统计量一样），请另外指定 ddof=1：

stats.zscore(arr, axis=1, ddof=1)

【讨论】：

您好，非常感谢您的回复！我不知道这个功能！顺便说一句，你确定我应该使用ddof=1 吗？另外，为什么我会得到歪斜的结果？事实上，积极的一面？有任何想法吗？可能是因为初始表中有很多零吗？我怎样才能避免这种情况？如果您想纠正样本偏差，请仅使用 ddof=1 - zscore 默认使用 ddof=0（即总体 SD）。关于您的编辑，我不确定我是否遵循您在编辑中尝试执行的操作...您想过滤掉具有异常高值的行吗？

以上是关于如何计算一个数字与平均值的标准差？的主要内容，如果未能解决你的问题，请参考以下文章