第三章 描述统计学Ⅱ:数值方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第三章 描述统计学Ⅱ:数值方法相关的知识,希望对你有一定的参考价值。

参考技术A

本章我们将介绍位置、离散程度、形态和相关程度的数值变量。

数据来自样本,计算的度量称为 样本统计量(sample statistics) ,如果数据来自总体,计算的度量成为 总体参数(population parameters)
统计推断中,样本统计量被称为是相应总体参数的 点估计量(point estimator)

平均数(mean)
样本平均值: 用n表示样本观测值的个数总体平均值: 用N表示总体观测值个数
一般用 来表示变量x的第i个观测值,公式如下:
样本平均数:
总体平均数:

加权平均数(weighted mean)

中位数(median) :所有数据按照升序排列,位于中间的数值即中位数。假设有n个数
n为奇数,就中间的即可
n为偶数,中间两个求平均值

几何平均数(geometric mean) :是一种位置度量,是n个数值乘积的n次方根。用 来表示

用途如投资10年计算年平均回报率

众数(mode) :出现次数最多的数据
有时候众数可能有多个,那么我们称数据集是双众数的或多众数的。一般多众数的数据也就没啥必要描述众数了。

百分位数(percentile) :提供了数据如何散步在从最小值和最大值的区间上的信息。
第p百分位数将数据分割为两部分,至少有p%的观测值小于或等于p百分位数,且至少有大约(100-p)%的观测值大于或等于p百分位数。

计算步骤

四分位数(quartiles)



计算方式跟用上面百分位数计算的方式来。

变异程度(亦即离散程度)

极差(range) =最大值-最小值

四分位数间距(interquartile range,IQR) 作为边意程度的一种度量,能客服异常值的影响。

方差(variance) 是用所有数据对变异程度所作的一种度量。
每个观察值 与平均值的差称为 平均数的离差(deviationabout the mean) ,当然样本和总体要分开计算。
总体方差(population variance)
样本方差(sample variance)
样本方差除以n-1才是对总体方差的无偏估计,样本方差 是总体方差 的点估计,别问,问就无可奉告。

方差的单位是平方,如计算某学校班级人数的方差,抽了5个班级作为样本那么
这个单位是不是很魔幻,那就别试图理解,直接理解成比较多个变量变异程度的工具。方差大意味着变异程度大,没别的了。

标准差(standard deviation) :为方差的正平方根。
样本标准差:
总体标准差:

这样做的好处是什么呢?——标准差和原始数据的单位度量相同,更容易比较。

标准差系数(coefficient of variation) =
如班级样本平均人数44人,样本标准差8;则标准差系数为

标准差系数一般用于比较不同标准差和不同平均数的变量的变异程度

分布形态的一种重要数值度量被称为 偏度(skewness)

偏度
公式不用记,计算机以后算就行。

我们想了解数据中数值的相对位置(一个数值距离平均值有多远)
z-分数(z-score)
z-分数往往称作 标准化数值 ,可以理解为 与平均数 的距离是 个标准差。
z-分数的正负表示 是大于 还是小于

一个变量的数值转换成z-分数的过程被称作z变换。

切比雪夫定理(Chebyshev\'s theorem) 能使我们指出与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。
定理内容:与平均数的距离在 个标准差之内的数据项所占比例至少为 ,其中 是大于1的任意实数。

当 =2, 3和4个标准差时该定理的一些应用如下:

例如100个学生成绩平均值70分,标准差5分
60-80分的人至少有75%的人
58-82分上下分别是2.4个标准差,
那么 = ,则至少有82.6%的学生成绩在58-82之间。

切比雪夫可适用于任何数据集,但实际多数是对称的峰形或钟形分布。当数据被认为近似这种分布时(正态分布),可用 经验法则(empirical rule) 来确定平均数的距离在某个特定个数的标准差内的数据值所占比例。

数据集中包含一个或多个数值异常大或者异常小的观测值,称作 异常值(outliers) 。如果错误就删除或者修正,如果时正确的反常值应该保留。

判断异常值的方法:

五数概括法(five-number summary)

箱形图(box plot) 是基于五数概括法的数据图形汇总,关键是计算四分位数间距(IQR)。绘制步骤如下:

上图有上下限,只是为了让你们看明白,一般而言是不画的,如下图:

当然了,我们还可以竖着画箱形图,如下:

上面都是一个实践对一个变量数据汇总的数值方法,下面介绍两个变量之间关系的度量。

协方差(covariance) ,对于一个容量为n的样本,其观测值为

如之前提到的音像设备商店的广告次数 与销售额 之间的线性关系,总体协方差如下:

我们看下图,我们画了垂直虚线 和水平虚线 ,并且在四个象限中的变化特点如下。

若 为正,则 和 存在正的线性关系
若 为负,则 和 存在负的线性关系
若各点在四象限均匀分布, 趋近于0,则 和 不存在线性关系。

样本相关系数 给出了总体相关系数 的一个估计。

当 ,则x和y存在正线性关系,且 时为完全正线性关系
当 ,则x和y存在负线性关系,且 时为完全负线性关系
当 ,则x和y不存在线性关系

链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

leetcode 简单第三十二题 买卖股票的最佳时机Ⅱ

给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。

设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易(多次买卖一支股票)。

注意:你不能同时参与多笔交易(你必须在再次购买前出售掉之前的股票)。

示例 1:

输入: [7,1,5,3,6,4]
输出: 7
解释: 在第 2 天(股票价格 = 1)的时候买入,在第 3 天(股票价格 = 5)的时候卖出, 这笔交易所能获得利润 = 5-1 = 4 。
     随后,在第 4 天(股票价格 = 3)的时候买入,在第 5 天(股票价格 = 6)的时候卖出, 这笔交易所能获得利润 = 6-3 = 3 。

示例 2:

输入: [1,2,3,4,5]
输出: 4
解释: 在第 1 天(股票价格 = 1)的时候买入,在第 5 天 (股票价格 = 5)的时候卖出, 这笔交易所能获得利润 = 5-1 = 4 。
     注意你不能在第 1 天和第 2 天接连购买股票,之后再将它们卖出。
     因为这样属于同时参与了多笔交易,你必须在再次购买前出售掉之前的股票。

示例 3:

输入: [7,6,4,3,1]
输出: 0
解释: 在这种情况下, 没有交易完成, 所以最大利润为 0。

class Solution:
    def maxProfit(self, prices):
        """
        :type prices: List[int]
        :rtype: int
        """

        tmp = 0
        i = 0
        while i < len(prices) - 1:
            if prices[i + 1] > prices[i]:
                tmp += prices[i + 1] - prices[i]
            i += 1
        return tmp

 



以上是关于第三章 描述统计学Ⅱ:数值方法的主要内容,如果未能解决你的问题,请参考以下文章

Delphi第三方控件使用大全(Ⅱ)的目录

leetcode 简单第三十二题 买卖股票的最佳时机Ⅱ

《统计学习方法》:第三章 K 近邻算法

《帝国时代Ⅱ:决定版》已登陆Microsoft Store和Steam

两个变量,不用第三个数就进行切换数值

《数学之美》——第三章 个人笔记