计算分箱列表的标准差

Posted

技术标签:

【中文标题】计算分箱列表的标准差【英文标题】:Calculate the standard deviation from a binned list 【发布时间】:2015-12-27 12:40:58 【问题描述】:

假设我有一个整数值列表,从110。我没有实际的数据集,而是只有每个值的数量。例如:

1  | 73
2  | 121
3  | 155
4  | 149
5  | 187
6  | 180
7  | 166
8  | 148
9  | 120
10 | 81

如您所见,单独列出每个值会非常耗时(73 1s、121 2s 等等),但这是我知道如何使用 STDEV() 的唯一方法。

如何计算值的标准差?

【问题讨论】:

也许在这里:real-statistics.com/descriptive-statistics/frequency-tables 【参考方案1】:

可能的替代方案,假设 1 在 A1 中,在 C1 中:

=B1*(A1-SUMPRODUCT(A$1:A$10,B$1:B$10)/SUM(B$1:B$10))^2  

复制到 C10。在 B11 中,复制到 C11:

=SUM(B1:B10)  

在 D11:

=SQRT(C11/(B11-1))  
如果2.520979是错误的答案,忘记上面的!

Excel 使用:

计算STDEV 以上只是将其分解为步骤以匹配可用的数据格式。

【讨论】:

【参考方案2】:

自定义的用户定义函数(又名 UDF)可能是最方便的途径。

      

A 列中的值已分解为 B 列中的倍数到 D2:D1381(见下文)。

E2:G2 中的 STDEV、STDEV.P 和 STDEV.S 公式是,

=STDEV($D2:$D1381)
=STDEV.P($D2:$D1381)
=STDEV.S($D2:$D1381)

E3:G3 中的 UDF 公式是,

=udf_STDEV_Exploded($A2:$A11, 1)   ' or =udf_STDEV_Exploded($A2:$A11)
=udf_STDEV_Exploded($A2:$A11, 2)
=udf_STDEV_Exploded($A2:$A11, 3)

UDF 公式基于以下模块代码。

Function udf_STDEV_Exploded(rng As Range, Optional iTYP As Long = 1)
    Dim r As Long, v As Long, vVALs As Variant

    ReDim vVALs(0)
    For r = 1 To rng.Rows.Count
        For v = 1 To rng.Cells(r, 2).Value2
            vVALs(UBound(vVALs)) = rng.Cells(r, 1).Value2
            ReDim Preserve vVALs(0 To UBound(vVALs) + 1)
        Next v
    Next r
    ReDim Preserve vVALs(0 To UBound(vVALs) - 1)

    Select Case iTYP
        Case 1
            udf_STDEV_Exploded = WorksheetFunction.StDev(vVALs)
        Case 2
            udf_STDEV_Exploded = WorksheetFunction.StDev_P(vVALs)
        Case 3
            udf_STDEV_Exploded = WorksheetFunction.StDev_S(vVALs)
        Case Else
            'do nothing
    End Select
End Function

我添加了一个选项来使用STDEV、STDEV.P 或STDEV.S 函数处理数组。 STDEV 函数是默认的。

附录

将 A2:B11 中的值分解为工作表上一长列值的代码是,

Sub stdev_vals()
    Dim rw As Long, f As Long, n As Long

    With Worksheets("Sheet1")
        For rw = 2 To .Cells(Rows.Count, 1).End(xlUp).Row
            .Cells(Rows.Count, 4).End(xlUp).Offset(1, 0).Resize(.Cells(rw, 2).Value2, 1) = .Cells(rw, 1).Value2
        Next rw
    End With
End Sub

【讨论】:

【参考方案3】:

首先计算平均值(这里标记为 THE_AVG):

=SUM(BIN_NUM*REPEATS)/SUM(REPEATS)

作为数组公式输入 (CTRL-SHIFT-ENTER)。然后计算标准差:

=SQRT(SUM((BIN_NUM-THE_AVG)^2*REPEATS)/(SUM(REPEATS)-1))

再次作为数组公式输入。如果需要,可以将两个计算合并为一个公式:

=SQRT(SUM((BIN_NUM-SUM(BIN_NUM*REPEATS)/SUM(REPEATS))^2*REPEATS)/(SUM(REPEATS)-1))

在这些公式中,BIN_NUM 表示带有 bin 编号的单元格范围(例如 A1:A10),REPEATS 表示带有每个 bin 中计数的单元格范围(例如 B1:B10)。

希望有帮助

【讨论】:

以上是关于计算分箱列表的标准差的主要内容,如果未能解决你的问题,请参考以下文章

Python:使用pandas和numpy计算标准差的区别

NumPy 与 Python 内置列表计算标准差的区别

标准差怎么计算 标准差的计算方法

Pandas计算标准差

两个独立数据框列表中所有元素的平均值和标准差

怎么算标准差?