数据分析面试手册《统计篇》

Posted 二哥不像程序员

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析面试手册《统计篇》相关的知识,希望对你有一定的参考价值。

前言

最近互联网行业进入了工作变动的高峰期,很多读者对于数据分析的面试题不知道如何进行解答,本文开始二师兄将连载《数据分析面试手册》来帮助大家!

Q1:描述假设检验?

考频:🔥🔥🔥
难度:🔥🔥🔥🔥

分析:

对于概念类叙述问题,掌握如下的几个问题:

  • 为什么要进行假设检验?
  • 如何证明假设检验?
  • 假设检验的步骤
  • 如何衡量假设检验的结果?

为什么要进行假设检验

  • 想要了解假设检验,就要先知道为什么要进行假设检验,学术上讲假设检验的目的在于判断原假设的总体和现在实际的总体是否发生了显著差异;简单的说就是我们想要去判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的时候需要进行假设检验。
  • 举例:根据之前的大量统计,公司的日销售额从正态分布,标准差为x。公司领导要求,日均销售额不得低于y,现在我们现在得到了A组最近一周每天的销售数据,是否要惩罚该部门呢?对于这类问题最好的方式就是进行假设检验来判断。

假设检验的思想

  • 假设检验基于反证法思想。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时,我们选择去维持原假设。

假设检验的步骤

  1. 提出原假设H0和备择假设H1;
  2. 设置显著性检验水平 α \\alpha α
  3. 根据不同的已知条件和需求选择检验方式:Z检验、T检验、卡方检验等;
  4. 根据检验结果得到统计量和P-value,根据二者判定检验结果。

如何衡量假设检验的结果

  • 计算统计量z后如果 ∣ z ∣ > z α 2 |z|>z_\\frac\\alpha2 z>z2α则拒绝原假设

  • 计算P值后,如果 p < α p<\\alpha p<α则拒绝原假设

Q2:简述假设检验的两类错误?

考频:🔥🔥🔥🔥
难度:🔥🔥🔥🔥

简述:

  • 假设检验的时候会提出原假设和备择假设。

    • 第一类错误(弃真错误,通常用 α \\alpha α表示):实际上原假设正确,但假设检验的结果上却拒绝原假设;

    • 第二类错误(采伪错误,通常用 β \\beta β表示):实际上原假设不正确,但假设检验的结果上却维持原假设。

  • 注:α通常表示概率,称为显著性水平。α可取单侧也可取双侧,可以根据需要确定α的大小,一般规定α=0.05或α=0.01。

解读:

  • 根据上图所示,我们将H0看作是原假设,H1看作是备择假设,此时的 α \\alpha α就是第一类错误 β \\beta β就是第二类错误,蓝线就是阈值(落在蓝线左侧维持原假设,落在右侧拒绝原假设),随着蓝线的移动 α \\alpha α β \\beta β呈现此消彼长的关系。

  • 在考虑阈值的时候我们不应该有原假设H0就是正确的这种思想从而想让 α \\alpha α越小越好,本质上讲一类错误变小另一类错误就会变大,解决降低两型错误发生率的最好办法是提高样本量,使得二者分母都变大从而使得蓝线的位置更加准确。

补充(如何更好的避免两类错误)

  • 我们往往在做统计推断的时候只考虑一类错误发生情况,那是因为我们往往围绕H0构造统计量(比较好构造);而H1的统计量分布往往不太好求,并且二类错误发生情况必须知道H1的统计量分布才能求出,所以我们一般做简单的统计推断时不考虑二型错误。

Q3:如何进行相关性分析?

考频:🔥🔥🔥
难度:🔥🔥🔥🔥

分析

  • 相关性分析是用于检验两个属性之间关系的一种分析方法,常见的相关性分析方法如下:

    • 图表分析
    • 皮尔逊相关系数
    • 协方差
    • 卡方检验

解答

  • 图表分析
    • 对于一般的属性关系,我们采用简单的绘图方式就能够看出二者的属性关系,常见的图形有散点图/折线图。
  • 皮尔逊相关系数
    • P ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) E ( X 2 ) − E 2 ( X ) E ( Y 2 ) − E 2 ( Y ) P(X,Y) = \\fracE(XY)-E(X)E(Y)\\sqrtE(X^2)-E^2(X)\\sqrtE(Y^2)-E^2(Y) P(X,Y)=E(X2)E2(X) E(Y2)E2(Y) E(XY)E(X)E(Y)
    • 皮尔逊相关系数通常用于衡量两个连续变量之间的相关程度,其取值是有界的,范围为[-1, 1],我们可以根据相关系数的取值(绝对值)来衡量两个变量的相关性:
      • 0.8-1.0:极强相关
      • 0.6-0.8:强相关
      • 0.4-0.6:中等程度相关
      • 0.2-0.4:弱相关
      • 0.0-0.2:极弱相关或无相关
  • 协方差
    • c o v ( X , Y ) = E [ ( x − x ˉ ) ( y − y ˉ ) ] cov(X,Y)=E[(x-\\barx)(y-\\bary)] cov(X,Y)=E[(xxˉ)(yyˉ)]
    • 协方差和皮尔逊一样通常用于两个连续变量之间相关性的检验,使用协方差判断相关性的结果比较直接,只有正相关、负相关、不相关三种结果。
      • 当cov(X,Y)>0时,表明X和Y正相关
      • 当cov(X,Y)<0时,表明X和Y负相关
      • 当cov(X,Y)=0时,表明X和Y不相关
  • 卡方检验
    • 卡方检验可以用于离散和离散数据之间相关性的检验。

Q4:如何理解置信区间和置信度?

考频:🔥🔥🔥
难度:🔥🔥

解答

  • 置信度:样本落在置信区间内的概率。
  • 置信区间:区间估计中,在给定置信度额情况下,样本统计量对总体参数进行估计得到的区间。

解析

  • 我们估计成年男性的平均体重时,我们估计的区间为(50kg,100kg),同时我们认为成年男性的平均体重有85%的可能性会在这个区间之内。此时的(50kg,100kg)就是置信区间,85%就是置信度。

Q5:估算2030年高考生的数量?

考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥

分析

  • 面试中通常会遇到估计某个场景下的某个内容数量的问题(估算人口、汽车、消费等),这种问题统称为“费米问题”,费米问题是一种使用逻辑思维能力去解决复杂问题的思想,当解决一个问题的已知条件过少,而条件距离答案相差甚远时,我们可以通过改变分析对象去解决问题。

  • 注:回答费米问题,面试官需要的不是一个确切的结果,更多的是在考察解决问题的思想。

解答

  • 高考生一般为18岁,2030年高考生为2012年出生,2012年我国出生人口为1600万,假设上学率为80%,都进行了九年义务教育,中考升学率60%,则最后高考人数 1600X0.8X0.6=768W

问题拓展

  • 对费米问题感兴趣的小伙伴可以去了解一下问题:芝加哥有多少个钢琴调音师?(后续会出专门的文章讲解费米问题)

以上是关于数据分析面试手册《统计篇》的主要内容,如果未能解决你的问题,请参考以下文章

数据分析面试手册《统计篇》

统计物理中的一些特殊数学处理

数据分析面试手册《指标篇》

数据分析面试手册《指标篇》

数据分析面试手册《SQL篇》

数据分析面试手册《SQL篇》