新浪金融数据分析面经
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了新浪金融数据分析面经相关的知识,希望对你有一定的参考价值。
参考技术A https://zhuanlan.zhihu.com/p/36539125https://zhuanlan.zhihu.com/p/56175215
9.24 笔试
9.29约面试 推到国庆后 10.16现场一面
自我介绍
实习最大的收获是什么?
挖数据竞赛,具体是怎么做的?
你能讲一下变量筛选IV和基于随机森林的差异么? 随机森林的重要性有两种定义,我只回答出了一种。
————————————————————————————————————————
IV叫做信息价值,是基于信息论得到的,是每箱特征的加权WOE,也可以用相对熵来理解,刻画的就是这个变量的好坏客户的分布差异,如果差异越大,对好坏客户的区分度就越强,反之则区分度就比较小。
基于特征重要度的变量筛选方法是目前机器学习最热门的方法之一,其原理主要是通过随机森林和GBDT等集成模型选取特征的重要度。对于随机森林,通常可以用基尼指数(Gini index)或者袋外数据(OOB)错误率作为评价指标来衡量。
两种计算方法:
————————————————————————————————————————
评分卡模型中,为什么要进行分箱?讲一下卡方分箱?分箱后为什么要进行WOE编码?
—————————————————————————————————————————
为什么要进行分箱?
卡方分箱:
卡方检验就是用来刻画某个变量与因变量是不是有显著关系的。
可以用实际次数与预期次数的差的平方除以预期次数进行计算。
Chimerge 分箱是目前最流行的分箱方式之一,其基本思想是如果两个相邻的区间具有类似的类分布,则这两个区间合并;否则,它们应保持分开。Chimerge通常采用卡方值来衡量两相邻区间的类分布情况。
分箱后:
为什么要进行WOE编码?
—————————————————————————————————————————
xgboost与lightgbm的差异?
—————————————————————————————————————————
我每次都只答出预排序和直方图。。 还要反复看。
1.速度和内存上的优化:
xgboost用的是预排序(pre-sorted)的方法, 空间消耗大。这样的算法需要保存数据的特征值,还保存了特征排序的结果(例如排序后的索引,为了后续快速的计算分割点),这里需要消耗训练数据两倍的内存。 其次,时间上也有较大的开销,在遍历每一个分割点的时候,都需要进行分裂增益的计算,消耗的代价大。
LightGBM用的是直方图(Histogram)的决策树算法,直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。
2.准确率上的优化:
xgboost 通过level(depth)-wise策略生长树, Level-wise过一次数据可以同时分裂同一层的叶子,容易进行多线程优化,也好控制模型复杂度,不容易过拟合。但实际上Level-wise是一种低效的算法,因为它不加区分的对待同一层的叶子,带来了很多没必要的开销,因为实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。
LightGBM通过leaf-wise(best-first)策略来生长树, Leaf-wise则是一种更为高效的策略,每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。因此同Level-wise相比,在分裂次数相同的情况下,Leaf-wise可以降低更多的误差,得到更好的精度。Leaf-wise的缺点是可能会长出比较深的决策树,产生过拟合。因此LightGBM在Leaf-wise之上增加了一个最大深度的限制,在保证高效率的同时防止过拟合。
3.对类别型特征的处理:
xgboost不支持直接导入类别型变量,需要预先对类别型变量作亚编码等处理。如果类别型特征较多,会导致哑变量处理后衍生后的特征过多,学习树会生长的非常不平衡,并且需要非常深的深度才能来达到较好的准确率。
LightGBM可以支持直接导入类别型变量(导入前需要将字符型转为整数型,并且需要声明类别型特征的字段名),它没有对类别型特征进行独热编码,因此速度比独热编码快得多。LightGBM使用了一个特殊的算法来确定属性特征的分割值。基本思想是对类别按照与目标标签的相关性进行重排序,具体一点是对于保存了类别特征的直方图根据其累计值(sum_gradient/sum_hessian)重排序,在排序好的直方图上选取最佳切分位置。
—————————————————————————————————————————
与线性回归一样,逻辑回归的假设是什么?
————————————————————————————————————————
线性回归的假设:
————————————————————————————————————————
讲一下你的科研经历,你认为你论文的优势在哪?
你的研究生学习是统计多一些还是算法多一些?
y标签是怎么定义的?
反问:
新浪金融平时的具体工作是什么呢? 风险 + 转化
新浪金融想对比别的平台的优势是什么呢? 有的名义上的数据驱动,其实还是人工驱动;新浪金融做到了从上到下的数据驱动
面试官小哥哥挺温和的,还跟我讲了他们对于校招和社招的不同要求,
校招:逻辑性一定要好,你得能把一个东西讲明白; 而且统计知识什么的你得会,总不能招你进来再学吧;
社招:更注重的是业务sense和对业务的理解和把控
还和我讲了一下未来风控的分支和发展方向。
感觉自己答得一般般,好多细节只是看过说不出来,不过确实收获很多。
以上是关于新浪金融数据分析面经的主要内容,如果未能解决你的问题,请参考以下文章