9.2.4 总体离散程度的估计

Posted 贵哥讲高中数学

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了9.2.4 总体离散程度的估计相关的知识,希望对你有一定的参考价值。

一课一练,知识点细致讲解,经典例题展现,分层巩固练习!主攻基础知识和基础方法!

\\(\\colorRed欢迎到学科网下载资料学习 \\)
[ 【基础过关系列】高一数学同步精品讲义与分层练习(人教A版2019)]
(https://www.zxxk.com/docpack/2921718.html)
\\(\\colorRed 跟贵哥学数学,so \\quad easy!\\)

必修第二册同步巩固,难度2颗星!

基础知识

极差的概念

一组数据中,极差等于最大值减去最小值.它在一定程度上刻画了数据的离散程度,但因为只使用最大值和最小值,所以所含的信息量很少.
 

方差,标准差的概念

(1)假设一组数据是\\(x_1\\)\\(x_2\\),…,\\(x_n\\),用\\(\\barx\\)表示这组数据的平均数,我们称
\\(S^2=\\frac1n \\sum_i=1^n\\left(x_i-\\barx\\right)^2\\)
这组数据的方差,为了计算方便也可以用\\(\\frac1n \\sum_i=1^n x_i^2-\\barx^2\\)
标准差是 \\(S=\\sqrt\\frac1n \\sum_i=1^n\\left(x_i-\\barx\\right)^2\\).
证明 \\(S^2=\\frac1n \\sum_i=1^n\\left(x_i-\\barx\\right)^2=\\frac1n \\sum_i=1^n x_i^2-\\barx^2\\)
证明 \\(S^2=\\frac1n \\sum_i=1^n\\left(x_i-\\barx\\right)^2=\\frac1n \\sum_i=1^n\\left(x_i^2-2 \\barx \\cdot x_i+\\barx^2\\right)\\)
\\(=\\frac1n\\left(\\sum_i=1^n x_i^2-2 \\barx \\cdot \\sum_i=1^n x_i+\\sum_i=1^n \\barx^2\\right)=\\frac1n\\left(\\sum_i=1^n x_i^2-2 \\barx \\cdot n \\barx+n \\barx^2\\right)\\)
\\(=\\frac1n\\left(\\sum_i=1^n x_i^2-2 n \\barx^2+n \\barx^2\\right)=\\frac1n\\left(\\sum_i=1^n x_i^2-n \\barx^2\\right)=\\frac1n \\sum_i=1^n x_i^2-\\barx^2\\).
 

方差、标准差的意义

方差越大,表明数据波动越大,越不稳定;方差越小,表明数据波动越小,越稳定.
解释
我们要研究数据的波动幅度,可看各数值离平均数的“距离”,故可想到 \\(\\frac1n \\sum_i=1^n\\left|x_i-\\barx\\right|\\),但为了避免式中含绝对值,通常用平方来代替,即 \\(\\frac1n \\sum_i=1^n\\left(x_i-\\barx\\right)^2\\) .
 

基本方法

【题型1】 求方差的概念

【典题1】某省射击队准备在甲、乙两名射击运动员中选拔一名运动员去参加“全国运动会”,他们两人共进行了\\(6\\)轮射击选拔赛,得到的成绩数据如下(单位:环).
甲:\\(86\\)\\(89\\)\\(92\\)\\(88\\)\\(90\\)\\(95\\)
乙:\\(82\\)\\(94\\)\\(92\\)\\(96\\)\\(87\\)\\(89\\)
  (1)分别计算甲、乙两名射击运动员每轮选拔赛成绩的平均数;
  (2)通过计算,请你说明派哪名运动员去参加“全国运动会”比较合适,说明理由.
解析 (1)由题中数据可求得:
\\(\\overlinex_\\text 甲 =\\frac16 \\times(86+89+92+88+90+95)=90\\)
\\(\\overlinex_\\text 乙 =\\frac16 \\times(82+94+92+96+87+89)=90\\)
所以甲的平均数是\\(90\\),乙的平均数也是\\(90\\)
(2)甲的方差为: \\(s_\\text 甲 ^2=\\frac16 \\times\\left[(86-90)^2+(89-90)^2+(92-90)^2+(88-90)^2\\right.\\)\\(\\left.+(90-90)^2+(95-90)^2\\right]=\\frac253\\)
乙的方差为:
\\(s_\\text 乙 ^2=\\frac16 \\times\\left[(82-90)^2+(94-90)^2+(92-90)^2+(96-90)^2 \\right.\\)\\(\\left.+(87-90)^2+(89-90)^2\\right]=\\frac653\\)
可知: \\(\\overlinex_\\text 甲 =\\overlinex_\\text 乙 \\)\\(s_\\text 甲 ^2<s_\\text 乙 ^2\\)
说明两名运动员的平均成绩相同,但是甲的方差小,说明甲成绩稳定,所以派甲运动员去参加“全国运动会”比较合适.
 

【典题2】一组数据的方差为\\(S^2\\),将这组数据中的每个数都乘以\\(2\\),所得的一组新数据的标准差为 \\(\\underline\\quad \\quad\\) .
解析设该组数据为\\(x_1\\)\\(x_2\\),…,\\(x_n\\),则设其平均数为\\(\\barx\\);若将每个数据都乘以\\(2\\),则有\\(2x_1\\)\\(2x_2\\)\\(2x_3\\),…,\\(2x_n\\),则其平均数为\\(2\\barx\\)
于是原数据方差为: \\(S^2=\\frac1n\\left[\\left(x_1-\\barx\\right)^2+\\left(x_2-\\barx\\right)^2+\\cdots+\\left(x_n-\\barx\\right)^2\\right]\\)
新数据方差为: \\(\\frac1n\\left[\\left(2 x_1-2 \\barx\\right)^2+\\left(2 x_2-2 \\barx\\right)^2+\\cdots+\\left(2 x_n-2 \\barx\\right)^2\\right]=4 S^2\\)
故新数据的标准差为\\(2S\\).
点拨 若一组数据\\(x_1\\)\\(x_2\\),…,\\(x_n\\)的平均数是\\(\\barx\\),方差是\\(S^2\\),则另一组数据\\(ax_1+b\\)\\(ax_2+b\\),…,\\(ax_n+b\\)的平均数是\\(a\\barx+b\\),方差是\\(a^2 S^2\\),利用平均数和方差的定义便可证明.
 

【典题3】某班共有\\(45\\)名同学,在某次满分为\\(100\\)分的测验中,得分前\\(15\\)名同学的平均分为\\(90\\)分,标准差为\\(\\sqrt3\\),后\\(30\\)名同学的平均分为\\(72\\)分,标准差为\\(\\sqrt6\\).(得分均为整数)
  (1)求全班同学成绩的平均分;
  (2)求全班同学成绩的方差;
  (3)能否下“全班同学全都及格了”的结论?说明理由.(达到\\(60\\)分及以上为及格).
解析 (1)该班\\(45\\)人分成两组,
这两组的平均分分别是\\(90\\)\\(72\\)
\\(\\therefore\\)全班的平均分是 \\(\\frac145 \\times(90 \\times 15+72 \\times 30)=78\\)
(2) \\(s_1=\\sqrt3\\)\\(\\therefore s_1^2=\\frac115 \\times\\left[\\left(x_1^2+x_2^2+\\cdots+x_15^2\\right)-15 \\times 90^2\\right]=3\\)
\\(\\therefore x_1^2+x_2^2+\\cdots+x_15^2=45+15 \\times 8100=121545\\)
\\(s_2=\\sqrt6\\)\\(x_16^2+x_17^2+\\cdots+x_45^2=180+30 \\times 72^2=155700\\)
\\(\\therefore\\)全班的方差是
\\(s^2=\\frac145\\left[\\left(x_1^2+x_2^2+\\cdots+x_45^2\\right)-45 \\times 78^2\\right]\\)\\(=\\frac145 \\times[(121545+155700)-273780]=77\\)
(3)假设有一个\\(59\\)分的同学,则它与平均分\\(78\\)的差的平方为\\(361\\),与平均分\\(72\\)的差的平方为\\(169\\),经比较知,这是完全可能的;
所以,不能说“全班同学全都及格了”的结论.
假设说“全班同学全都及格了”,
则得分前\\(15\\)名同学的平均分为\\(90\\)分,标准差为\\(\\sqrt3\\),方差为\\(3\\)
\\(30\\)名同学的平均分为\\(72\\)分,标准差为\\(\\sqrt6\\),方差为\\(6\\);这完全是有可能.
点拨 求方差,为了计算方便也可以用 \\(\\frac1n \\sum_i=1^n x_i^2-\\barx^2\\).
 

【巩固练习】

1.国家射击运动员甲在某次训练中\\(10\\)次射击成绩(单位:环)如下:\\(7\\)\\(5\\)\\(9\\)\\(7\\)\\(4\\)\\(8\\)\\(9\\)\\(9\\)\\(7\\)\\(5\\),则下列关于这组数据说法不正确的是(  )
  A.众数为\\(7\\)\\(9\\) \\(\\qquad \\qquad\\) B.方差为\\(s^2=3\\) \\(\\qquad \\qquad\\) C.平均数为\\(7\\) \\(\\qquad \\qquad\\) D.第\\(70\\)百分位数为\\(8\\)
 

2.已知\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)的平均数为\\(10\\),标准差为\\(2\\),则\\(2x_1-1\\)\\(2x_2-1\\),…,\\(2x_n-1\\)的平均数和标准差分别为(  )
  A.\\(19\\)\\(2\\) \\(\\qquad \\qquad \\qquad \\qquad\\) B.\\(19\\)\\(3\\) \\(\\qquad \\qquad \\qquad \\qquad\\) C.\\(19\\)\\(4\\) \\(\\qquad \\qquad \\qquad \\qquad\\) D.\\(19\\)\\(8\\)
 

3.(多选)甲同学投掷骰子\\(5\\)次,并请乙同学将向上的点数记录下来,计算出平均数和方差.由于记录遗失,乙同学只记得这五个点数的平均数为\\(2\\),方差在区间\\([1.2,2.4]\\)内,则这五个点数(  )
  A.众数可能为\\(1\\) \\(\\qquad \\qquad \\qquad \\qquad\\) B.中位数可能为\\(3\\)
  C.一定不会出现\\(6\\) \\(\\qquad \\qquad \\qquad \\qquad\\) D.出现\\(2\\)的次数不超过两次
 

4.2021年夏天由于用电量增多,某市政府鼓励居民节约用电,为了解居民用电情况,在某小区随机抽查了\\(20\\)户家庭的日用电量,结果如表:

日用电量(度) \\(4\\) \\(5\\) \\(6\\) \\(8\\) \\(9\\)
户数 \\(4\\) \\(4\\) \\(7\\) \\(3\\) \\(2\\)

则关于这\\(20\\)户家庭的日用电量,下列说法:
 ①中位数是\\(6\\)度;\\(\\qquad\\)②平均数是\\(6\\)度;\\(\\qquad\\)③众数是\\(6\\)度;\\(\\qquad\\)④极差是\\(4\\)度;\\(\\qquad\\)⑤方差是 \\(\\frac52\\)
其中说法错误的序号是\\(\\underline\\quad \\quad\\)
 

5.在发生某公共卫生事件期间,有专业机构认为该事件在一段事时间内没有发生大规模群体感染的标志是“连续\\(10\\)日,每天新增疑似病例不超过\\(7\\)人”.过去\\(10\\)日,甲、乙、丙、丁四地新增疑似病例数据信息如下:
甲地:中位数为\\(2\\),众数为\\(3\\)
乙地:总体平均数为\\(2\\),总体方差为\\(3\\)
丙地:总体平均数为\\(1\\),总体方差大于\\(0\\)
丁地:总体平均数为\\(3\\),中位数为\\(4\\)
则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是\\(\\underline\\quad \\quad\\)地.
 

6.甲、乙两名跳高运动员进行了\\(8\\)次比赛,他们的成绩(单位:\\(m\\))如下:
甲:\\(1.70\\) \\(1.65\\) \\(1.68\\) \\(1.69\\) \\(1.72\\) \\(1.73\\) \\(1.68\\) \\(1.67\\)
乙:\\(1.60\\) \\(1.73\\) \\(1.72\\) \\(1.61\\) \\(1.62\\) \\(1.71\\) \\(1.70\\) \\(1.75\\)
  (1)甲、乙两名运动员的平均跳高成绩分别是多少?
  (2)哪位运动员的成绩更为稳定?
  (3)教练根据这\\(8\\)次成绩,从甲、乙两名运动员中挑选一个参加省大学生运动会,若预测跳过\\(1.65m\\)就很可能获得冠军,该校为了获得冠军,可能选哪名运动员参赛?若预测跳过\\(1.70m\\)才能得冠军呢?
 
 
 

参考答案

  1. 答案 \\(D\\)
    解析 结合数据得众数为\\(7\\)\\(9\\),故\\(A\\)正确,
    平均数是 \\(\\barx=\\frac7 \\times 3+9 \\times 3+5 \\times 2+4+810=7\\),故\\(C\\)正确,
    \\(s^2=\\frac110\\left(3^2+2^2+2^2+1^2+2^2+2^2+2^2\\right)=3\\),故\\(B\\)正确,
    \\(10\\)次射击成绩从小到大排列分别是:\\(4\\)\\(5\\)\\(5\\)\\(7\\)\\(7\\)\\(7\\)\\(8\\)\\(9\\)\\(9\\)\\(9\\)
    \\(\\because 10×70\\%=7\\)
    \\(\\therefore\\)\\(70\\)百分位数为 \\(\\frac8+92=8.5\\),故\\(D\\)错误,
    故选:\\(D\\)

  2. 答案 \\(C\\)
    解析 \\(\\because x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)的平均数为\\(10\\),标准差为\\(2\\)
    \\(2x_1-1\\)\\(2x_2-1\\),…,\\(2x_n-1\\)的平均数为:\\(2×10-1=19\\)
    标准差为: \\(\\sqrt2^2 \\times 2^2=4\\).故选:\\(C\\)

  3. 答案 \\(ACD\\)
    解析 对于\\(A\\),向上的点数为\\(1\\)\\(1\\)\\(1\\)\\(2\\)\\(5\\)时,众数为\\(1\\),平均数为\\(2\\)
    方差为 \\(\\frac15\\left[(1-2)^2+(1-2)^2+(1-2)^2+(2-2)^2+(5-2)^2\\right]=1.2 \\in\\left[\\beginarrayll 1.2, 2.4 \\endarray\\right]\\)
    \\(A\\)正确;
    若中位数为\\(3\\),设五次数据从小到大为:\\(a_1\\)\\(a_2\\)\\(a_3\\)\\(a_4\\)\\(a_5\\)
    \\(a_3=3\\)
    \\(\\therefore a_1+a_2+a_4+a_5=2×5-3=7\\)
    \\(a_1+a_2≥2\\)\\(a_4+a_5≤5\\),矛盾,故\\(B\\)错误;
    若出现了\\(6\\),则其它四次和为\\(4\\),即数据为\\(1\\)\\(1\\)\\(1\\)\\(1\\)\\(6\\)
    方差为\\(\\frac15\\left[(1-2)^2+(1-2)^2+(1-2)^2+(1-2)^2+(6-2)^2\\right]=4 \\notin[1.2,2.4]\\),矛盾,故\\(C\\)正确;
    若出现\\(3\\)\\(2\\),则其它\\(2\\)次和为\\(4\\),这两次为\\(1\\),,
    方差为\\(\\frac15\\left[(1-2)^2+(2-2)^2+(2-2)^2+(2-2)^2+(4-2)^2\\right]=0.4 \\notin\\left[\\beginarrayll 1.2 & 2.4 \\endarray\\right]\\),矛盾,故\\(D\\)正确.
    故选:\\(ACD\\)

  4. 答案
    解析对于①,由题可知,随机抽取了\\(20\\)户家庭的日用电量,
    日用电量为\\(4\\)度的有\\(4\\)户,日用电量为\\(5\\)度的有\\(4\\)户,\\(4+4=8<10\\)
    而日用电量为\\(6\\)度的有\\(7\\)户,\\(4+4+7=15>10\\)
    所以中位数是\\(6\\)度,故①正确,
    对于②,\\(20\\)户家庭的日用电量的平均数为 \\(\\frac4 \\times 4+4 \\times 5+7 \\times 6+3 \\times 8+2 \\times 920=6\\)度,
    故②正确,
    对于③,从用户数可知,日用电量为\\(6\\)度的用户最多,
    所以众数为\\(6\\)度,故③正确,
    对于④,由于日用电电量最多为\\(9\\)度,最少为\\(4\\)度,
    所以极差为\\(9-4=5\\)度,故④错误,
    对于⑤, \\(s^2=\\frac120\\left[(4-6)^2 \\times 4+(5-6)^2 \\times 4+(6-6)^2 \\times 7+(8-6)^2 \\times 3\\right.\\)\\(\\left.+(9-6)^2 \\times 2\\right]=\\frac52\\),故⑤正确.
    故选:④.

  5. 答案
    解析 根据题意,依次分析选项:
    对于甲地:中位数为\\(2\\),众数为\\(3\\),有可能出现超过\\(7\\)人的情况,如数据\\(0\\)\\(0\\)\\(1\\)\\(1\\)\\(2\\)\\(2\\)\\(3\\)\\(3\\)\\(3\\)\\(8\\),出现了每天新增疑似病例超过\\(7\\)人的情况,可能发生大规模群体感染;
    对于乙地,假设过去\\(10\\)天新增疑似病例数据存在一个数据\\(x\\)\\(x≥8\\)
    而总体平均数为\\(2\\),则总体方差\\(S^2>\\frac110(x-2)^2 \\geq 3.6\\),故不成立,
    故假设不成立,故符合没有发生大规模群体感染的标志,一定没有发生大规模群体感染;
    对于丙地,对于数据\\(8\\)\\(1\\)\\(1\\)\\(0\\)\\(0\\)\\(0\\)\\(0\\)\\(0\\)\\(0\\)\\(0\\),总体平均数为\\(1\\),总体方差大于\\(0\\),而出现了每天新增疑似病例超过\\(7\\)人的情况,可能发生大规模群体感染;
    对于丁地,平均数与中位数不能限制极端值的出现,则有可能出现超过\\(7\\)人的情况,可能发生大规模群体感染;
    故答案为:乙.

  6. 答案 (1) 甲的平均成绩为\\(1.69m\\),乙的平均成绩为\\(1.68m\\);(2) 甲的成绩更为稳定;(3)略
    解析 (1)甲的平均成绩为:
    \\((1.70+1.65+1.68+1.69+1.72+1.73+1.68+1.67)÷8=1.69(m)\\)
    乙的平均成绩为:
    \\((1.60+1.73+1.72+1.61+1.62+1.7+1.70+1.75)÷8=1.68(m)\\)
    (2)根据方差公式可得:甲的方差为\\(0.0006\\),乙的方差为\\(0.00315\\)
    \\(\\because 0.0006<0.00315\\)
    \\(\\therefore\\)甲的成绩更为稳定;
    (3)若跳过\\(1.65m\\)就很可能获得冠军,甲的成绩均过\\(1.65m\\),乙的成绩\\(3\\)次未过\\(1.65m\\),因此选甲;
    若预测跳过\\(1.70m\\)才能得冠军,甲的成绩过\\(1.70m\\)\\(3\\)次,乙的成绩过\\(1.70m\\)\\(5\\)次,因此选乙.
     

【题型2】 总体离散程度的估计

【典题1】 为了解本市居民的生活成本,甲、乙、内三名同学利用假期分别对三个社区进行了“家庭每月日常消费额”的调查.他们将调查所得到的数据分别绘制成频率分布直方图(如图所示),甲、乙、丙所调查数据的标准差分别为\\(s_1\\)\\(s_2\\)\\(s_3\\),则它们的大小关系为(  )

  A.\\(s_1>s_2>s_3\\) \\(\\qquad \\qquad\\) B.\\(s_1>s_3>s_2\\) \\(\\qquad \\qquad\\) C.\\(s_3>s_2>s_1\\) \\(\\qquad \\qquad\\) D.\\(s_3>s_1>s_2\\)
解析 根据三个频率分步直方图知,
甲数据的两端数字较多,绝大部分数字都处在两端数据偏离平均数远,最分散,其方差、标准差最大;
丙数据是单峰的每一个小长方形的差别比较小,数字分布均匀,数据不如第一组偏离平均数大,方差比第一组中数据中的方差、标准差小,
而乙数据绝大部分数字都在平均数左右,数据最集中,故其方差、标准差最小,
总上可知\\(s_1>s_3>s_2\\)
故选:\\(B\\)
点拨直接看各组数据的离散程度就可以比较它们方差之间的大小.
 

【典题2】从某企业生成的产品生产线上随机抽取\\(200\\)件产品,测量这批产品的一项质量指标值,由测量结果得如图所示的频率分布直方图:
  (1) 估计这批产品质量指标值的样本平均\\(\\barx\\)和样本方差\\(s^2\\) (同一组中的数据用该组区间的中点值做代表):
  (2) 若该种产品的等级及相应等级产品的利润(每件)参照以下规则(其中Z为产品质量指标值):
\\(Z\\in (\\barx-s,\\barx+s)\\)该产品定为一等品,企业可获利\\(200\\)元;
\\(Z\\in (\\barx-2s,\\barx+2s)\\)\\(Z\\notin (\\barx-s,\\barx+s)\\)该产品定为二等品,企业可获利\\(100\\)元:
\\(Z\\in (\\barx-3s,\\barx+3s)\\)\\(Z\\notin (\\barx-2s,\\barx+2s)\\).该产品定为三等品,企业将损失\\(500\\)元;
否则该产品定为不合格品,企业将损失\\(1000\\)
(i)若测得一箱产品(\\(5\\)件)的质量指标数据分别为:\\(76\\)\\(85\\)\\(93\\)\\(105\\)\\(112\\),求该箱产品的利润;
(ii)设事件\\(A\\)\\(Z\\in (\\barx-s,\\barx+s)\\);事件\\(B\\)\\(Z\\in (\\barx-2s,\\barx+2s)\\);
事件\\(C\\)\\(Z\\in (\\barx-2s,\\barx+2s)\\)根据经验,对于该生产线上的产品,事件\\(A\\)\\(B\\)\\(C\\)发生的概率分别为\\(0.6826\\)\\(0.9544\\)\\(0.9974\\),根据以上信息,若产品预计年产量为\\(10000\\)件,试估计设产品年获利情况(参考数据:\\(\\sqrt26=5.10\\))

解析 (1)质量指标的样本平均数:
\\(\\barx=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100\\)
质量指标的样本方差为:
\\(S^2=(80-100)^2 \\times 0.06+(90-100)^2 \\times 0.26+(110-100)^2 \\times 0.22\\)\\(+(120-100)^2 \\times 0.08=104\\)
\\(\\therefore\\)估计这批产品质量指标值的样本平均\\(\\barx=100\\),样本方差\\(s^2=104\\)
(2)(i)\\(\\because (\\barx-s,\\barx+s)=(89.8,110.2)\\)\\((\\barx-2s,\\barx+2s)=(79.6,120.4)\\)
\\((\\barx-3s,\\barx+3s)=(69.4,130.6)\\)
由题意得\\(5\\)件产品中有一等品\\(2\\)件:\\(93\\)\\(105\\)
有二等品\\(2\\)件:\\(85\\)\\(112\\),有三等品\\(1\\)件:\\(76\\)
\\(\\therefore\\)根据规则该箱产品的利润为:\\(2×200+2×100+1×(-500)=100\\)元.
(ii)根据提供的概率分布,该企业生产的产品中:
一等品大约为:\\(10000×0.6826=6826\\)件,
二等品大约为:\\(10000×(0.9544-0.6826)=2718\\)件,
三等品大约为:\\(10000×(0.9974-0.9544)=430\\)件,
不合格品大约为:\\(10000×(1-0.9974)=26\\)件,
估计年获利为:\\(6826×200+2718×100+430×(-500)+26×(-1000)=1396000\\)(元).
点拨 在频率直方图中求方差,其值\\(S^2=\\sum_i=1^n f_i\\left(x_i-\\barx\\right)^2\\),其中\\(f_i\\)为每组的频率,\\(x_i\\)为每组的组中值.简证:与求平均数差不多,频率直方图中数据具体分布不清楚,假设是均匀分布的,每组的每个数值均为该组组中值较为合理,设总量为\\(n\\),则每组都有\\(n\\cdot f_i\\)\\(x_i\\),每组的各数值与平均数之差的平方之和为\\(n \\cdot f_i \\cdot\\left(x_i-\\barx\\right)^2\\),则所有数据与平均数之差的平方之和为\\(\\sum_i=1^n n f_i\\left(x_i-\\barx\\right)^2=n \\sum_i=1^n f_i\\left(x_i-\\barx\\right)^2\\),则方差 \\(S^2=\\frac1\\mathrmn \\cdot n \\sum_i=1^n f_i\\left(x_i-\\barx\\right)^2=\\sum_i=1^n f_i\\left(x_i-\\barx\\right)^2\\),它只是个估计值.
 

【巩固练习】

1.某公司为了解用户对其产品的满意度,从甲、乙两地区分别随机调查了\\(100\\)个用户,根据用户对产品的满意度评分,分别得到甲地区和乙地区用户满意度评分的频率分布直方图.

若甲地区和乙地区用户满意度评分的中位数分别为\\(m_1\\)\\(m_2\\);方差分别为\\(s_1^2\\)\\(s_2^2\\),则下面正确的是(  )
  A.\\(m_1>m_2\\)\\(s_1^2>s_2^2\\) \\(\\qquad\\) B.\\(m_1>m_2\\)\\(s_1^2<s_2^2\\) \\(\\qquad\\) C.\\(m_1<m_2\\)\\(s_1^2<s_2^2\\) \\(\\qquad\\) D.\\(m_1<m_2\\)\\(s_1^2>s_2^2\\)
 

2.(多选)坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习和体育锻炼协调发展.某学校对高一和高二年级每周在校体育锻炼时长进行了统计,得到数据(单位:小时)如表:
高一年级在校体育锻炼时长

分组 频率
\\([2,3)\\) \\(0.25\\)
\\([3,4)\\) \\(0.30\\)
\\([4,5)\\) \\(0.20\\)
\\([5,6]\\) \\(0.25\\)

关于高一和高二年级在校体育锻炼时长,下列说法正确的是(  )

  A.高一年级时长的众数比高二年级的大
  B.高一年级时长的平均数比高二年级的小
  C.高一年级时长的中位数比高二年级的大
  D.高一年级时长的方差比高二年级的大
 

3.某学校\\(1800\\)名学生在一次百米测试中,成绩全部介于\\(13\\)秒与\\(18\\)秒之间,抽取其中\\(50\\)个样本,将测试结果按如下方式分成五组:第一组\\([13,14]\\),第二组\\([14,15)\\),第五组\\([17,18]\\),如图是按上述分组方法得到的频率分布直方图.
  (1)若成绩小于\\(15\\)秒认为良好,求该样本在这次百米测试中成绩良好的人数;
  (2)请估计学校\\(1800\\)名学生中,成绩属于第四组的人数;
  (3)请根据频率分布直方图,求样本数据的众数、中位数、平均数和方差.

 
 
 

参考答案

  1. 答案 \\(D\\)
    解析 由频率分布直方图得:
    甲地区:\\([40,60]\\)的频率为\\((0.015+0.020)×10=0.35\\)
    \\([60,70)\\)的频率为\\(0.025×10=0.25\\)
    \\(\\therefore\\)甲地区用户满意度评分的中位数 \\(m_1=60+\\frac0.5-0.350.25 \\times 10=66\\)
    乙地区:\\([50,70]\\)的频率为\\((0.005+0.020)×10=0.25\\)
    \\([70,80)\\)的频率为\\(0.035×10=0.35\\)
    \\(\\therefore\\)乙地区用户满意度评分的中位数 \\(m_2=70+\\frac0.5-0.250.35 \\times 10 \\approx 77.1\\)
    \\(\\therefore m_1<m_2\\)
    由直方图可以看出,乙地区用户满意度评分的集中程度比甲地区的高,
    \\(\\therefore s_1^2>s_2^2\\)
    故选:\\(D\\)
  2. 答案 \\(BD\\)
    解析 对于高一年级,由表可进行下列计算:
    时长众数为\\(3.5\\),时长平均数为\\(2.5×0.25+3.5×0.3+4.5×0.2+5.5×0.25=3.95\\)
    时长中位数为 \\(3+\\frac0.55-0.50.3=\\frac196\\)
    时长方差为 \\((2.5-3.95)^2 \\times 0.25+(3.5-3.95)^2 \\times 0.30+(4.5-3.95)^2 \\times 0.20+\\)\\((5.5-3.95)^2 \\times 0.25=1.2475\\)
    对于高二年级,由频率分布直方图可进行下列计算:
    时长众数为\\(4.5\\),时长平均数为\\(2.5×0.15+3.5×0.25+4.5×0.35+5.5×0.25=4.2\\)
    时长中位数为 \\(4+\\frac0.75-0.50.35=\\frac337\\)
    时长方差为 \\((2.5-4.2)^2 \\times 0.15+(3.5-4.2)^2 \\times 0.25+(4.5-4.2)^2 \\times 0.35\\)\\(+(5.5-4.2)^2 \\times 0.25=0.5693\\)
    由上可知:\\(3.5<4.5\\)\\(3.95<4.2\\)\\(\\frac196<\\frac337\\)\\(1.2475>0.5693\\)
    故选:\\(BD\\)
  3. 答案 (1) \\(11\\); (2) \\(576\\); (3) 众数\\(15.5\\)、中位数\\(15.74\\)、平均数\\(15.7\\)、方差\\(1\\).
    解析 (1)样本在这次百米测试中成绩优秀的人数\\(0.22×50=11\\)(人)
    (2)学校\\(1800\\)名学生中,成绩属于第四组的人数\\(0.32×1800=576\\)(人)
    (3)由图可知众数落在第三组\\([15,16)\\),是\\(15+162=15.5\\)
    因为数据落在第一、二组的频率\\(=1×0.06+1×0.16=0.22<0.5\\)
    数据落在第一、二、三组的频率\\(=1×0.06+1×0.16+1×0.38=0.6>0.5\\)
    所以中位数一定落在第三组\\([15,16)\\)中.
    假设中位数是\\(x\\),所以\\(1×0.06+1×0.16+(x-15)×0.38=0.5\\)
    解得中位数\\(x=29919≈15.7368≈15.74\\)
    平均数为:\\(13.5×0.06+14.5×0.16+15.5×0.38+16.5×0.32+17.5×0.08=15.7\\)
    方差为: \\((13.5-15.7)^2 \\times 0.06+(14.5-15.7)^2 \\times 0.16+(15.5-15.7)^2 \\times 0.38\\)
    \\(+(16.5-15.7)^2 \\times 0.32+(17.5-15.7)^2 \\times 0.08=1\\)
     

分层练习

【A组---基础题】

1.为评估一种农作物的种植效果,选了\\(n\\)块地作试验田,这\\(n\\)块地的亩产量(单位:\\(kg\\))分别是\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\),下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是(  )
  A.\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)的平均数
  B.\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)的标准差
  C.\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)的最大值
  D.\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)的中位数
 

2.在某次测量中得到E的样本数据如下:\\(80\\)\\(82\\)\\(82\\)\\(84\\)\\(84\\)\\(84\\)\\(84\\)\\(86\\)\\(86\\)\\(86\\)\\(86\\).若\\(F\\)的样本数据恰好是E的样本数据都减去\\(2\\)后得到的数据,则关于\\(E\\)\\(F\\)两样本数据特征的下列说法中,正确的是(  )
  A.\\(E\\)\\(F\\)样本数据的众数为\\(84\\) \\(\\qquad \\qquad \\qquad \\qquad\\) B.\\(E\\)\\(F\\)样本数据的方差相同
  C.\\(E\\)\\(F\\)样本数据的平均数相同 \\(\\qquad \\qquad \\qquad \\qquad\\) D.\\(E\\)\\(F\\)样本数据的中位数相同
 

3.如图,样本数为\\(9\\)的四组数据,它们的平均数都是\\(5\\),频率条形图如下,则标准差最大的一组是(  )

  A.第一组 \\(\\qquad \\qquad \\qquad \\qquad\\) B.第二组 \\(\\qquad \\qquad \\qquad \\qquad\\) C.第三组 \\(\\qquad \\qquad \\qquad \\qquad\\) D.第四组
 

4.已知数据\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)是上海普通职工\\(n(n≥3,n\\in N^*)\\)个人的年收入,设这\\(n\\)个数据的中位数为\\(x\\),平均数为\\(y\\),方差为\\(z\\),如果再加上世界首富的年收入\\(x_n+1\\),则这\\(n+1\\)个数据中,下列说法正确的是(  )
  A.年收入平均数大大增大,中位数一定变大,方差可能不变
  B.年收入平均数大大增大,中位数可能不变,方差变大
  C.年收入平均数大大增大,中位数可能不变,方差也不变
  D.年收入平均数可能不变,中位数可能不变,方差可能不变
 

5.高三年级在某次月考时,某班数学科代表作统计本班数学成绩的工作,并计算出班级数学平均分和方差,当工作完成时,发现漏统计了一位同学的数学成绩,若该同学的数学成绩恰是班级的数学平均分,则下列说法正确的是(  )
  A.班级平均分不变,方差变小
  B.班级平均分不变,方差变大
  C.班级平均分改变,方差变小
  D.班级平均分改变,方差变大
 

6.某同学掷骰子\\(5\\)次,分别记录每次骰子出现的点数,根据\\(5\\)次的统计结果,可以判断一定没有出现点数\\(6\\)的是(  )
  A.中位数是\\(3\\),众数是\\(2\\) \\(\\qquad \\qquad \\qquad \\qquad\\) B.平均数是\\(3\\),中位数是\\(2\\)
  C.方差是\\(2.4\\),平均数是\\(2\\) \\(\\qquad \\qquad \\qquad \\qquad\\) D.平均数是\\(3\\),众数是\\(2\\)
 

7.乐乐家共有七人,已知今年这七人岁数的众数为\\(35\\)、平均数分\\(44\\)、中位数为\\(55\\)、标准差为\\(19\\).则\\(5\\)年后,下列说法中正确的有\\(\\underline\\quad \\quad\\) (请把所有正确结论的序号写出)
①这七人岁数的众数变为\\(40\\);②这七人岁数的平均数变为\\(49\\)
③这七人岁数的中位数变为\\(60\\);④这七人岁数的标准差变为\\(24\\)
 

8.气象学意义上从春季进入夏季的标志为:“连续\\(5\\)天的日平均气温均不低于\\(22℃\\)”.现有甲、乙、丙三地的日平均气温的记录数据(记录数据均为正整数).
甲地:\\(5\\)个数据的中位数是\\(24\\),众数为\\(22\\)
乙地:\\(5\\)个数据的中位数是\\(28\\),总体平均数为\\(25\\)
丙地:\\(5\\)个数据一个为\\(32\\),总体平均数为\\(26\\),方差为\\(10.8\\)
则由此判断进入夏季的地区有\\(\\underline\\quad \\quad\\)
 

9.某工厂现有甲、乙两条生产线,可生产同一型号的产品.为了提高生产线的稳定性和产品的质量,计划对其中一条生产线进行技术升级.为此,让甲、乙两条生产线各生产\\(8\\)天(每天生产的时间、产品总数均相同),两条生产线每天生产的次品数分别为:

\\(1\\) \\(2\\) \\(3\\) \\(4\\) \\(5\\) \\(6\\) \\(7\\) \\(8\\)
\\(0\\) \\(1\\) \\(1\\) \\(0\\) \\(1\\) \\(1\\) \\(1\\) \\(1\\)
\\(1\\) \\(2\\) \\(3\\) \\(0\\) \\(0\\) \\(0\\) \\(1\\) \\(1\\)

  (1)分别计算这两组数据的平均数和方差;
  (2)请依据所学统计知识,结合(1)中的数据,给出升级哪条生产线的建议,并说明你的理由.
 
 

10.某学校为了了解高二年级学生数学运算能力,对高二年级的\\(200\\)名学生进行了一次测试.已知参加此次测试的学生的分数\\(x_i (i=1,2,…,200)\\)全部介于\\(45\\)分到\\(95\\)分之间,该校将所有分数分成\\(5\\)组:\\([45,55)\\)\\([55,65)\\),…,\\([85,95]\\),整理得到如下频率分布直方图(同组数据以这组数据的中间值作为代表).
  (1)求\\(m\\)的值,并估计此次校内测试分数的平均值\\(\\barx\\)
  (2)学校要求按照分数从高到低选拔前\\(20\\)名的学生进行培训,试估计这\\(20\\)名学生的最低分数;
  (3)试估计这\\(200\\)名学生的分数\\(x_i (i=1,2,…,200)\\)的方差\\(s^2\\),并判断此次得分为\\(52\\)分和\\(94\\)分的两名同学的成绩是否进入到了\\([\\barx-2s,\\barx+2s]\\)范围内?
(参考公式: \\(s^2=\\frac1n \\sum_i=1^n f_i\\left(x_i-\\barx\\right)^2\\),其中\\(f_i\\)为各组频数;参考数据: \\(\\sqrt129 \\approx 11.4\\))

 
 
 

参考答案

  1. 答案 \\(B\\)
    解析\\(A\\)中,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标,
    \\(A\\)不可以用来评估这种农作物亩产量稳定程度;
    \\(B\\)中,标准差能反映一个数据集的离散程度,故\\(B\\)可以用来评估这种农作物亩产量稳定程度;
    \\(C\\)中,最大值是一组数据最大的量,故\\(C\\)不可以用来评估这种农作物亩产量稳定程度;
    \\(D\\)中,中位数将数据分成前半部分和后半部分,用来代表一组数据的“中等水平”,
    \\(D\\)不可以用来评估这种农作物亩产量稳定程度.
    故选:\\(B\\)
  2. 答案 \\(B\\)
    解析 \\(\\because\\)在某次测量中得到\\(E\\)的样本数据如下:
    \\(80\\)\\(82\\)\\(82\\)\\(84\\)\\(84\\)\\(84\\)\\(84\\)\\(86\\)\\(86\\)\\(86\\)\\(86\\)
    \\(F\\)的样本数据恰好是\\(E\\)的样本数据都减去\\(2\\)后得到的数据,
    \\(\\therefore E\\)样本数据的众数是\\(84\\)\\(86\\)\\(F\\)样本数据的众数是\\(82\\)\\(84\\),故\\(A\\)错误;
    \\(E\\)\\(F\\)样本数据的方差相同,故\\(B\\)正确;
    \\(E\\)样本数据的平均数比\\(F\\)样本数据的平均数大\\(2\\),故\\(C\\)错误;
    \\(E\\)样本数据的中位数比\\(F\\)样本数据的中位数大\\(2\\),故\\(D\\)错误.
    故选:\\(B\\)
  3. 答案 \\(D\\)
    解析 由所给的几个选项观察数据的波动情况,
    得到方差之间的大小关系,
    \\(A\\)\\(9\\)个数据都是\\(5\\),方差为\\(0\\)
    \\(B\\)\\(C\\)数据分布比较均匀,前者的方差较小,后者的方差较大,
    \\(D\\)数据主要分布在\\(2\\)\\(8\\)处,距离平均数是最远的一组,
    \\(\\therefore\\)最后一个频率分步直方图对应的数据的方差最大,
    则标准差最大,
    故选:\\(D\\)
  4. 答案 \\(B\\)
    解析 \\(\\because\\)数据\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)是上海普通职工\\(n(n≥3,n\\in N^*)\\)个人的年收入,
    \\(x_n+1\\)为世界首富的年收入
    \\(x_n+1\\)会远大于\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)
    故这\\(n+1\\)个数据中,年收入平均数大大增大,
    但中位数可能不变,也可能稍微变大,
    但由于数据的集中程序也受到\\(x_n+1\\)比较大的影响,而更加离散,则方差变大
    故选\\(B\\)
  5. 答案 \\(A\\)
    解析 设原平均分为\\(a\\),人数为\\(n\\),增加\\(1\\)人分数为\\(a\\)后的平均分为 \\(\\fracn a+1 \\cdot an+1=\\fraca(n+1)n+1=a\\)
    故班级的平均分不变;
    而由方差公式 \\(s^2=\\frac1n\\left[\\left(x_1-\\barx\\right)^2+\\left(x_2-\\barx\\right)^2+\\cdots+\\left(x_n-\\barx\\right)^2\\right]\\)
    当增加一个为均值的数时,方差公式中的n增大,中括号内的值不变,使得最终结果变小,
    \\(s^\\prime 2=\\frac1n+1\\left[\\left(x_1-\\barx\\right)^2+\\left(x_2-\\barx\\right)^2+\\cdots+\\left(x_n-\\barx\\right)^2+(\\barx-\\barx)^2\\right]\\)
    \\(=\\frac1n+1\\left[\\left(x_1-\\barx\\right)^2+\\left(x_2-\\barx\\right)^2+\\cdots+\\left(x_n-\\barx\\right)^2\\right]\\),故增加一个为均值的数据方差变小.
    故选:\\(A\\)
  6. 答案 \\(C\\)
    解析 对于\\(A\\),有可能出现点数\\(6\\),例如\\(2\\)\\(2\\)\\(3\\)\\(4\\)\\(6\\)
    对于\\(B\\),有可能出现点数\\(6\\),例如\\(2\\)\\(2\\)\\(2\\)\\(3\\)\\(6\\)
    对于\\(C\\),设这\\(5\\)次的点数为\\(x_1\\)\\(x_2\\),⋯,\\(x_5\\)
    则方差 \\(s^2=\\frac15\\left[\\left(x_1-2\\right)^2+\\left(x_2-2\\right)^2+\\cdots+\\left(x_5-2\\right)^2\\right]\\)
    如果出现点数\\(6\\),而 \\(\\frac15 \\times(6-2)^2=3.2\\),则方差大于或等于\\(3.2\\),故不可能出现点数\\(6\\)
    对于\\(D\\),有可能出现点数\\(6\\),例如\\(2\\)\\(2\\)\\(2\\)\\(3\\)\\(6\\)
    故选:\\(C\\)
  7. 答案 ①②③
    解析 对于①,五年后众数为\\(35+5=40\\),正确;
    对于②,五年后平均数分\\(44+5=49\\),正确;
    对于③,五年后中位数为\\(55+5=60\\),正确;
    对于④,标准差表示数据的波动性大小,五年后标准差不变,仍为\\(19\\),④错误.
    综上知,正确的命题序号是①②③.
    故答案为:①②③.
  8. 答案 甲地、丙地
    解析\\(5\\)个数据的中位数是\\(24\\),众数为\\(22\\)知,
    \\(5\\)个数据从小到大排序后的前三个数为\\(22\\)\\(22\\)\\(24\\),故可判断甲地进入夏季;
    \\(5\\)个数据的中位数是\\(28\\),总体平均数为\\(25\\)知,
    \\(5\\)个数据从小到大排序后可以是\\(16\\)\\(25\\)\\(28\\)\\(28\\)\\(28\\),故判断不出乙地进入夏季;
    对于丙地,若有一个数据\\(x≤21\\),则 \\(\\frac(32-26)^2+(x-26)^25 \\geqslant \\frac36+255>10.8\\)
    \\(5\\)个数据的方差为\\(10.8\\)相矛盾,故假设不成立,故可判断丙地进入夏季;
    故答案为:甲地、丙地.
  9. 答案 (1) 甲组平均数和方差为\\(\\frac34\\)\\(\\frac316\\),乙组平均数和方差为\\(1\\)\\(1\\)
    (2) 选择乙生产线进行升级
    解析 (1)设甲组数据的平均数和方差为 \\(\\barx_1\\)\\(s_1^2\\),乙组数据的平均数和方差为\\(\\barx_2\\)\\(s_2^2\\)
    \\(\\therefore \\barx_1=\\frac0+1+1+0+1+1+1+18=\\frac68=\\frac34\\)\\(s_1^2=\\frac18\\left[2 \\times\\left(0-\\frac34\\right)^2+6 \\times\\left(1-\\frac34\\right)^2\\right]=\\frac316\\)
    \\(\\barx_2=\\frac1+2+3+0+0+0+1+18=\\frac88=1\\)\\(s_2^2=\\frac18\\left[3 \\times(0-1)^2+(2-1)^2+(3-1)^2\\right]=1\\)
    (2)由于\\(\\barx_1<\\barx_2\\),甲生产线生产的次品平均数少于乙生产线生产的次品平均数,
    \\(s_1^2<s_2^2\\),甲生产线较乙生产线生产的产品质量更稳定,
    综上,选择乙生产线进行升级.
  10. 答案 (1) \\(75\\); (2) \\(90\\); (3) 得分为\\(52\\)分的同学的成绩没有进入到\\([\\barx-2s,\\barx+2s]\\)范围,得分为\\(94\\)分的同学的成绩进入到 \\([\\barx-2s,\\barx+2s]\\)范围了.
    解析(1)\\(\\because (0.006+0.014+m+0.036+0.020)×10=1\\)\\(\\therefore m=0.024\\)
    \\(\\therefore\\)该次校内考试测试分数的平均数的估计值为:\\(50×0.06+60×0.14+70×0.24+80×0.36+90×0.2=75\\)分.
    (2) \\(\\because \\frac200-20200=90 \\%\\)
    \\(\\therefore\\)\\(20\\)名学生的最低分数就是该次校内测试分数的\\(90\\%\\)分位数.
    \\(\\because 0.06+0.14+0.24+0.36=0.8<0.9\\)
    \\(0.06+0.14+0.24+0.36+0.2=1>0.9\\)
    \\(\\therefore\\)该次校内考试测试分数的\\(90\\%\\)分位数为 \\(85+\\frac0.90-0.81-0.8 \\times 10=90\\)
    \\(\\therefore\\)\\(20\\)名学生的最低分数的估计值为\\(90\\)分.
    (3) \\(\\because s^2=\\frac1n \\sum_i=1^k f_i\\left(x_i-\\barx\\right)^2\\)
    \\(=0.06 \\times(50-75)^2+0.14 \\times(60-75)^2+0.24 \\times(70-75)^2+0.36 \\times(80-75)^2\\)
    \\(+0.2 \\times(90-75)^2=129\\)
    \\(\\therefore s=\\sqrt129 \\approx 11.4\\)\\(\\therefore \\barx-2s=52.2\\)\\(\\barx+2s=97.8\\)
    \\(\\therefore\\)得分为\\(52\\)分的同学的成绩没有进入到\\([52.2,97.8]\\)内,
    得分为\\(94\\)分的同学的成绩进入到了\\([52.2,97.8]\\)内.
    即:得分为\\(52\\)分的同学的成绩没有进入到 \\([\\barx-2s,\\barx+2s]\\)范围,
    得分为\\(94\\)分的同学的成绩进入到 \\([\\barx-2s,\\barx+2s]\\)范围了.
     

【B组---提高题】

1.酒后驾驶是严重危害交通安全的行为,某交通管理部门对辖区内四个地区(甲、乙、丙、丁)的酒驾治理情况进行检查督导,若“连续\\(8\\)天,每天查获的酒驾人数不超过\\(10\\)”,则认为“该地区酒驾治理达标”,根据连续\\(8\\)天检查所得数据的数字特征推断,酒驾治理一定达标的地区是(  )
  A.甲地,均值为\\(4\\),中位数为\\(5\\) \\(\\qquad \\qquad\\qquad \\qquad\\) B.乙地:众数为\\(3\\),中位数为\\(2\\)
  C.丙地:均值为\\(7\\),方差为\\(2\\) \\(\\qquad \\qquad\\qquad \\qquad\\) D.丁地:极差为\\(3\\)\\(75\\%\\)分位数为\\(8\\)\\(\\qquad \\qquad\\)
 

2.如果两组数\\(x_1\\)\\(x_2\\),…,\\(x_n\\)\\(y_1\\)\\(y_2\\),…,\\(y_n\\)的平均数分别为\\(\\barx\\)\\(\\bary\\),标准差分别为\\(S_1\\)\\(S_2\\),那么合为一组数\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)\\(y_1\\)\\(y_2\\),…,\\(y_n\\)后的平均数和标准差\\(S\\)分别是(  )
 A. \\(\\barx+\\bary\\)\\(\\fracS_1^2+S_2^22\\) \\(\\qquad \\qquad\\qquad \\qquad\\) B. \\(\\barx+\\bary\\)\\(\\frac\\sqrtS_1^2+S_2^22\\)\\(\\qquad \\qquad\\)
 C.\\(\\frac\\barx+\\bary2\\)\\(\\fracS_1^2+S_2^22\\) \\(\\qquad \\qquad\\qquad \\qquad\\) D.\\(\\frac\\barx+\\bary2\\)\\(\\sqrt\\fracs_1^2+s_2^22+\\frac(\\barx-\\bary)^24\\)
 

参考答案

  1. 答案 \\(C\\)
    解析 不妨设\\(8\\)天中,每天查获的酒驾人数从小到大分别为\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_8\\),且\\(x_i≥0\\),其中\\(i=1\\)\\(2\\),...,\\(8\\)
    选项\\(A\\):若不达标,则\\(x_8≥11\\),因为中位数为\\(5\\),所以\\(x_4+x_5=10\\)
    又因为均值为\\(4\\),故\\(\\sum_i=1^8 x_i=32\\),从而\\(x_1+x_2+x_3+x_6+x_7⩽11\\)
    \\(x_1⩽x_2⩽x_3⩽5⩽x_6⩽x_7\\),则\\(x_1=x_2=0\\)\\(x_3=1\\)\\(x_4=x_5=x_6=x_7=5\\)\\(x_8=11\\)满足题意,从而甲地有可能不达标,故\\(A\\)错误,
    选项\\(B\\):由众数和中位数的定义易知,当\\(x_1=x_2=0\\)\\(x_3=x_4=1\\)\\(x_5=x_6=x_7=3\\)\\(x_8=11\\)时,乙地不达标,故\\(B\\)错误,
    选项\\(C\\):若不达标,则\\(x_8≥11\\),由均值为\\(7\\)可知,则其余\\(7\\)个数中至少有一个数不等于\\(7\\)
    由方差定义可知,\\(S^2=\\frac18 \\sum_i=1^7\\left(x_i-7\\right)^2+\\frac18\\left(x_8-7\\right)^2>2\\),这与方差为\\(2\\)矛盾,从而丙地一定达标,故\\(C\\)正确,
    选项\\(D\\):由极差定义和百分位数定义可知,
    \\(x_1=x_2=x_3=x_4=x_5=x_6=x_7=8\\)\\(x_8=11\\)时,丁地不达标,故\\(D\\)错误,
    故选:\\(C\\)
  2. 答案 \\(D\\)
    解析 数据\\(x_1\\)\\(x_2\\),…,\\(x_n\\)\\(y_1\\)\\(y_2\\),…,\\(y_n\\)的平均数分别为\\(\\barx\\)\\(\\bary\\)
    \\(\\barx=\\frac1n\\left(x_1+x_2+\\cdots+x_n\\right)\\)\\(\\bary=\\frac1n\\left(y_1+y_2+\\cdots+y_n\\right)\\)
    所以数据\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\) ,y_1,y_2,…,y_n的平均数为
    \\(\\barX=\\frac\\left(x_1+x_2+\\cdots+x_n\\right)+\\left(y_1+y_2+\\cdots+y_n\\right)n+n\\)\\(=\\fracn \\barx+n \\bary2 n=\\frac\\barx+\\bary2\\)
    又标准差为
    \\(s_1=\\sqrt\\frac1n\\left[\\left(x_1-\\barx\\right)^2+\\left(x_2-\\barx\\right)^2+\\cdots+\\left(x_n-\\barx\\right)^2\\right]=\\sqrt\\frac1n\\left(x_1 ^2+x_2 ^2+\\cdots+x_n ^2-n \\barx^2\\right)\\)\\(\\therefore n s_1^2=x_1^2+x_2^2+\\cdots+x_n^2-n \\barx^2\\)
    \\(s_2=\\sqrt\\frac1n\\left[\\left(y_1-\\bary\\right)^2+\\left(y_2-\\bary\\right)^2+\\left(y_n-\\bary\\right)^2\\right]=\\sqrt\\frac1n\\left(y_1^2+y_2^2+\\cdots+y_n^2\\right)-n \\bary^2\\)
    \\(\\therefore n s_2 ^2=y_1^2+y_2^2+\\cdots+y_n^2-n \\bary^2\\)
    所以数据\\(x_1\\)\\(x_2\\)\\(x_3\\),…,\\(x_n\\)\\(y_1\\)\\(y_2\\),…,\\(y_n\\)的标准差\\(S\\)满足 \\(S^2=\\frac12 n\\left[\\left(x_1^2+x_2^2+\\cdots+x_n^2+y_1^2+y_2^2+\\cdots+y_n^2\\right)-2 n \\barX^2\\right]\\)
    \\(=\\frac12 n\\left[\\left(x_1^2+x_2^2+\\cdots+x_n^2-n \\barx^2\\right)+\\left(y_1^2+y_2^2+\\cdots+y_n^2-n \\bary^2\\right)\\right.\\)\\(\\left.+n \\barx^2+n \\bary^2-2 n\\left(\\frac\\barx+\\bary2\\right)^2\\right]\\)
    \\(=\\frac12 n\\left[n s_1^2+n s_2^2+n \\cdot \\frac(\\barx-\\bary)^22\\right]=\\fracs_1 ^2+s_2 ^22+\\frac(\\barx-\\bary)^24\\)
    \\(\\therefore S=\\sqrt\\fracs_1 ^2+s_2 ^22+\\frac(\\barx-\\bary)^24\\)
    故选:\\(D\\)

【C组---拓展题】

1.某样本由\\(m+n\\)个数组成,平均数为\\(\\barz\\),方差为\\(s^2\\),这个样本可分为两层:第一层有\\(m\\)个数,分别为\\(x_1\\)\\(x_2\\),…,\\(x_m\\) ,平均数为\\(\\barx\\),方差为\\(s_1^2\\):第二层有\\(n\\)个数,分别为\\(y_1\\)\\(y_2\\),⋯⋯,\\(y_n\\),平均数为\\(\\bary\\),方差为\\(s_2^2\\)
  (1)证明: \\(\\barz=\\fracm \\barx+n \\barym+n\\)
  (2)证明: \\(\\sum_k=1^m\\left(x_k-\\barx\\right)^2=\\sum_k=1^m x_k^2-m \\barx^2\\)
  (3)证明: \\(s^2=\\frac1m+n\\left[m s_1^2+n s_2^2+\\fracm nm+n(\\barx-\\bary)^2\\right]\\)
 
 
 

参考答案

  1. 证明 (1)证法一:第一层有\\(m\\)个数,分别为\\(x_1\\)\\(x_2\\),…,\\(x_m\\) ,平均数为\\(\\barx\\)
    第二层有\\(n\\)个数,分别为\\(y_1\\)\\(y_2\\),⋯⋯,\\(y_n\\),平均数为\\(\\bary\\)
    \\(\\therefore \\barz=\\fracx_1+x_2+\\cdots+x_m+y_1+y_2+\\cdots+y_nm+n=\\fracm \\barx+n \\barym+n\\)
    证法二:(1)由平均数定义得 \\(\\barx=\\frac1m \\sum_k=1^m x_k\\)_, \\(\\bary=\\frac1n \\sum_k=1^n y_k\\)
    \\(\\therefore \\sum_k=1^m x_k+\\sum_k=1^n y_k=m \\barx+n \\bary\\)
    \\(\\therefore \\barz=\\frac\\sum_k=1^m x_k+\\sum_k=1^n y_km+n=\\fracm \\barx+n \\barym+n\\)
    (2)证法一:
    \\(\\sum_k=1^m\\left(x_k-\\barx\\right)^2=\\left(x_1-\\barx\\right)^2+\\left(x_2-\\barx\\right)^2+\\cdot+\\left(x_m-\\barx\\right)^2\\)
    \\(=x_1^2+x_2^2+\\cdots+x_m^2-2 \\barx\\left(x_1+x_2+\\cdot+x_m\\right)+m \\barx^2\\)
    \\(=\\sum_k=1^m x_k^2-2 m_x^2+m \\barx_x^2=\\sum_k=1^m x_k^2-m \\barx^2\\)
    证法二: \\(\\because \\sum_k=1^m x_k=m \\barx\\)
    , _\\(\\sum_k=1^m \\barx=m \\barx\\)
    \\(\\therefore \\sum_k=1^m\\left(x_k-\\barx\\right)=\\sum_k=1^m x_k-\\sum_k=1^m \\barx=0\\)
    \\(\\because \\sum_k=1^m 2 x_k \\barx=2 \\barx \\sum_k=1^m x_k=2 m \\barx^2\\)\\(\\sum_k=1^m \\barx^2=m \\barx^2\\)
    \\(\\therefore \\sum_k=1^m\\left(x_k-\\barx\\right)^2=\\sum_k=1^m\\left(x_k^2-2 x_k \\barx+\\barx^2\\right)\\)
    \\(=\\sum_k=1^m x_k^2-\\sum_k=1^m 2

    评分卡系列:泛化误差估计与模型调参

    作者:JSong,时间:2017.10.21

    本文大量引用了 jasonfreak ( http://www.cnblogs.com/jasonfreak ) 的系列文章,在此进行注明和感谢.

    广义的偏差(bias)描述的是预测值和真实值之间的差异,方差(variance)描述距的是预测值作为随机变量的离散程度。《Understanding the Bias-Variance Tradeoff》当中有一副图形象地向我们展示了偏差和方差的关系:

    技术分享图片

    一、Bias-variance 分解

    我们知道算法在不同训练集上学到的结果很可能不同,即便这些训练集来自于同一分布。对测试样本 x ,令 y_D 为 x 在数据集中的标记,y 为 x 的真实标记, f(x;D) 为训练集 D 上学的模型 f 在 x 上的预测输出。

    在回归任务中,学习算法的期望输出为:

    \\[\\bar{f}(x)=\\mathbb{E}_{D}[f(x;D)]\\]

    使用样本数相同的不同训练集产生的方差为:

    \\[var(x)=\\mathbb{E}_{D}[(f(x;D)-\\bar{f}(x))^2]\\]

    噪声为

    \\[\\varepsilon^2=\\mathbb{E}_{D}[(y_{D}-y)^2]\\]

    我们将期望输出与真实标记之间的差别称为偏差(bias):

    \\[bias^2(x)=(\\bar{f}(x)-y)^2\\]

    为便于讨论,假定噪声期望为零,即

    \\[\\mathbb{E}_D[y_D-y]=0\\]

    通过简单的多项式展开合并,对算法的期望泛化误差进行分解:

    \\[\\begin{align} E(f;D)=&\\mathbb{E}_{D}\\left[(f(x;D)-y_D)^2\\right]\\=&\\mathbb{E}_{D}\\left[(f(x;D)-\\bar{f}(x)+\\bar{f}(x)-y_D)^2\\right]\\=&\\mathbb{E}_{D}\\left[(f(x;D)-\\bar{f}(x))^2\\right]+(\\bar{f}(x)-y)^2+\\mathbb{E}_{D}[(y_D-y)^2] \\end{align}\\]

    于是有

    \\[E(f;D)=bias^2(x)+var(x)+\\varepsilon^2\\]

    也就是说,泛化误差可分解为偏差、方差与噪声之和。

    偏差和方差是有冲突的,下面是一个示意图。在训练不足(模型复杂度低)时,偏差主导了泛化误差率;随着训练程度的加深,方差逐渐主导了泛化误差率。

    技术分享图片

    二、集成学习框架下的泛化误差分解

    这一节内容节选自博客:《使用sklearn进行集成学习——理论》 (www.cnblogs.com/jasonfreak/p/5657196.html)

    在bagging和boosting框架中,通过计算基模型的期望和方差,我们可以得到模型整体的期望和方差。为了简化模型,我们假设基模型的权重、方差及两两间的相关系数相等。由于bagging和boosting的基模型都是线性组成的,那么有:

    \\[E(f)=E(\\sum_{i=1}^{m}\\gamma_{i}\\cdot_{}f_{i})=\\sum_{i=1}^{m}\\gamma_{i}\\cdot_{}E(f_i)=\\gamma\\cdot\\sum_{i}^{m}E(f_i)\\]

    \\[\\begin{align} Var(f)=&Var(\\sum_{i}^{m}\\gamma_{i}\\cdot_{}f_{i})=Cov(\\sum_{i}^{m}\\gamma_{i}\\cdot_{}f_{i},\\sum_{i}^{m}\\gamma_{i}\\cdot_{}f_{i})\\=&\\sum_{i}^{m}\\gamma_{i}^2\\cdot_{}Var(f_i)+\\sum_{i}^{m}\\sum_{j\\neq_{}i}^{m}2\\rho\\gamma_{i}\\gamma_{j}\\sqrt{Var(f_i)}\\sqrt{Var(f_j)}\\=&m^2\\gamma^2\\sigma^2\\rho+m\\gamma^2\\sigma^2(1-\\rho) \\end{align}\\]

    2.1 bagging 的偏差和方差

    对于bagging来说,每个基模型的权重等于 1/m 且期望近似相等(子训练集都是从原训练集中进行子抽样),故我们可以进一步化简得到:

    \\[E(f)=\\gamma\\cdot\\sum_{i}^{m}E(f_i)=\\frac{1}{m}m\\mu=\\mu\\]

    \\[\\begin{align} Var(F)=&m^2\\gamma^2\\sigma^2\\rho+m\\gamma^2\\sigma^2(1-\\rho)\\=&m^2\\frac{1}{m^2}\\sigma^2\\rho+m\\frac{1}{m^2}\\sigma^2(1-\\rho)\\=&\\sigma^2\\rho+\\frac{\\sigma^2(1-\\rho)}{m} \\end{align}\\]

    根据上式我们可以看到,整体模型的期望近似于基模型的期望,这也就意味着整体模型的偏差和基模型的偏差近似。同时,整体模型的方差小于等于基模型的方差(当相关性为1时取等号),随着基模型数(m)的增多,整体模型的方差减少,从而防止过拟合的能力增强,模型的准确度得到提高。但是,模型的准确度一定会无限逼近于1吗?并不一定,当基模型数增加到一定程度时,方差公式第二项的改变对整体方差的作用很小,防止过拟合的能力达到极限,这便是准确度的极限了。另外,在此我们还知道了为什么bagging中的基模型一定要为强模型,否则就会导致整体模型的偏差度低,即准确度低。

      Random Forest是典型的基于bagging框架的模型,其在bagging的基础上,进一步降低了模型的方差。Random Fores中基模型是树模型,在树的内部节点分裂过程中,不再是将所有特征,而是随机抽样一部分特征纳入分裂的候选项。这样一来,基模型之间的相关性降低,从而在方差公式中,第一项显著减少,第二项稍微增加,整体方差仍是减少。

    2.2 boosting 的偏差和方差

    对于boosting来说,基模型的训练集抽样是强相关的,那么模型的相关系数近似等于1,故我们也可以针对boosting化简公式为:

    \\[E(f)=\\gamma\\sum_{i}^{m}E(f_i)\\]

    \\[Var(F)=m^2\\gamma^2\\sigma^2\\rho+m\\gamma^2\\sigma^2(1-\\rho)=m^2\\gamma^2\\sigma^2\\]

    通过观察整体方差的表达式,我们容易发现,若基模型不是弱模型,其方差相对较大,这将导致整体模型的方差很大,即无法达到防止过拟合的效果。因此,boosting框架中的基模型必须为弱模型。

    因为基模型为弱模型,导致了每个基模型的准确度都不是很高(因为其在训练集上的准确度不高)。随着基模型数的增多,整体模型的期望值增加,更接近真实值,因此,整体模型的准确度提高。但是准确度一定会无限逼近于1吗?仍然并不一定,因为训练过程中准确度的提高的主要功臣是整体模型在训练集上的准确度提高,而随着训练的进行,整体模型的方差变大,导致防止过拟合的能力变弱,最终导致了准确度反而有所下降。

    基于boosting框架的 Gradient Tree Boosting 模型中基模型也为树模型,同 Random Forrest,我们也可以对特征进行随机抽样来使基模型间的相关性降低,从而达到减少方差的效果。

    三、常见分类模型及其参数介绍

    本文介绍的都是 scikit-learn 中的模型。

    3.1 逻辑回归模型

    在scikit-learn中,与逻辑回归有关的主要是这3个类。

    • logisticRegression
    • LogisticRegressionCV
    • logistic_regression_path

    其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用了交叉验证来选择正则化系数C。而LogisticRegression需要自己每次指定一个正则化系数。另外logistic_regression_path类则比较特殊,它拟合数据后,不能直接来做预测,只能为拟合数据选择合适逻辑回归的系数和正则化系数,主要是用在模型选择的时候,一般情况用不到这个类,所以后面不再讲述logistic_regression_path类。

    LogisticRegression 的参数使用如下:

    class sklearn.linear_model.LogisticRegression(penalty=‘l2‘, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=‘liblinear‘, max_iter=100, multi_class=‘ovr‘, verbose=0, warm_start=False, n_jobs=1)

    具体含义为:

    技术分享图片

    3.2 集成学习模型

    在scikit-learn中,与随机森林有关的有两个。

    • RandomForestClassifier(): A random forest classifier.
    • RandomForestRegressor(): A random forest regressor.

    这里主要讲第一个,它的参数如下:

    class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None)

    与GBDT有关的也是两个。

    • GradientBoostingClassifier([loss, …]): Gradient Boosting for classification.
    • GradientBoostingRegressor([loss, …]): Gradient Boosting for regression.

    其中分类模型的参数如下:

    class sklearn.ensemble.GradientBoostingClassifier(loss=’deviance’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=’friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, min_impurity_split=None, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, presort=’auto’)

    这两个模型的参数介绍如下:

    技术分享图片

    在上一节我们对bagging和boosting两种集成学习技术的泛化误差估计有了初步的了解。Random Forest的子模型都拥有较低的偏差,整体模型的训练过程旨在降低方差,故其需要较少的子模型(n_estimators默认值为10)且子模型不为弱模型(max_depth的默认值为None),同时,降低子模型间的相关度可以起到减少整体模型的方差的效果(max_features的默认值为auto)。

    另一方面,Gradient Tree Boosting的子模型都拥有较低的方差,整体模型的训练过程旨在降低偏差,故其需要较多的子模型(n_estimators默认值为100)且子模型为弱模型(max_depth的默认值为3),但是降低子模型间的相关度不能显著减少整体模型的方差(max_features的默认值为None)。

    四、分类模型的调参方法

    调参是一个最优化问题。如果样本量不是非常大,计算资源也足够,那我们可以直接用网格搜索进行穷举。例如在随机森林算法中,可以用sklearn提供的GridSearchCV函数来调参。

    param_test1 ={‘n_estimators‘:range(10,71,10),‘max_features‘:range(20,50,1)}  
    gsearch1= GridSearchCV(estimator =RandomForestClassifier(min_samples_split=100,  
                                     min_samples_leaf=20,max_depth=8,random_state=10),   
                           param_grid =param_test1,scoring=‘roc_auc‘,cv=5)  
    gsearch1.fit(X,y)  
    gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

    对于小数据集,我们还能这么任性,但是参数组合爆炸,在大数据集上,如果用网格搜索,那真的要下一个猴年马月才能看到结果了。而且实际上网格搜索也不一定能得到全局最优解,而另一些研究者从解优化问题的角度尝试解决调参问题。

    坐标下降法是一类非梯度优化算法。算法在每次迭代中,在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向。对于不可拆分的函数而言,算法可能无法在较小的迭代步数中求得最优解。为了加速收敛,可以采用一个适当的坐标系,例如通过主成分分析获得一个坐标间尽可能不相互关联的新坐标系(如自适应坐标下降法)。

    技术分享图片

    我们最容易想到一种特别朴实的类似于坐标下降法的方法,与坐标下降法不同的是,其不是循环使用各个参数进行调整,而是贪心地选取了对整体模型性能影响最大的参数。参数对整体模型性能的影响力是动态变化的,故每一轮坐标选取的过程中,这种方法在对每个坐标的下降方向进行一次直线搜索(line search)。首先,找到那些能够提升整体模型性能的参数,其次确保提升是单调或近似单调的。这意味着,我们筛选出来的参数是对整体模型性能有正影响的,且这种影响不是偶然性的,要知道,训练过程的随机性也会导致整体模型性能的细微区别,而这种区别是不具有单调性的。最后,在这些筛选出来的参数中,选取影响最大的参数进行调整即可。

    另外无法对整体模型性能进行量化,也就谈不上去比较参数影响整体模型性能的程度。我们还没有一个准确的方法来量化整体模型性能,只能通过交叉验证来近似计算整体模型性能。然而交叉验证也存在随机性,假设我们以验证集上的平均准确度作为整体模型的准确度,我们还得关心在各个验证集上准确度的变异系数,如果变异系数过大,则平均值作为整体模型的准确度也是不合适的。

    五、评分卡实践

    参考文献

    [1]. Understanding the Bias-Variance Tradeoff

    [2]. 使用sklearn进行集成学习——理论

    http://scikit-learn.org/stable/modules/model_evaluation.html

    http://blog.csdn.net/u012969412/article/details/72973055

    [使用sklearn进行集成学习——实践] ( www.cnblogs.com/jasonfreak/p/5720137.html )

    以上是关于9.2.4 总体离散程度的估计的主要内容,如果未能解决你的问题,请参考以下文章

    应用统计学参数统计-点估计与估计量的评价标准

    应用统计学参数统计-点估计与估计量的评价标准

    应用统计学参数统计-点估计与估计量的评价标准

    应用统计学参数统计-点估计与估计量的评价标准

    描述统计学:极差方差标准差

    统计学基础