MS ML

Posted 2021-01-26 ffeng0312

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了MS ML相关的知识，希望对你有一定的参考价值。

hardware failure detection怎么建模解决，从feature到方法。（他个人倾向decision tree）
假设一个logistic regression的auc是0.7，random forest给出0.8，但还是想用logistic regression，问有什么方法可以提高auc，我说了几个feature transformation，不是他想要的，然后想到interaction是他想要的答案。interaction就是capture潜在的non linear relationship
一些机器算法的问题，讲一个你最喜欢的机器算法
问了feature engineerin, 如果需要挑选出大热的游戏怎么选出feature
Phd - 白板写CNN的流程, 白板写如何update loss
Phd - L1, L2 loss的选择，怎么做L1 的 optimization，讲了讲data serialization....
Phd - ANN 相关， feature selection
Phd针对背景简历上特长来的, 我是phys的 - 介绍SVM原理，kernel trick的原理，让列了一些常见的kernel
Phd针对背景简历上特长来的, 我是phys的 -介绍logistic regression，要推导出总体likelihood的公式，注意下{0,1}和{-1,1}两种label下公式的区别。最后问不用frequentist inference，用Bayesion inference，logistics regression的模型应该怎么变，答不是求单个w，而是同学学习更新p(w)，还要考虑prior probability。之后又问了decision tree， random forest，怎么选feature，怎么split，random forest优势是什么。

10. Phd针对背景简历上特长来的, 我是phys的 - logistics regression是discriminative model还是generative model，lz不行，确实不知道这个概念区别，瞎答是discriminative。他看我不懂问我naive bayes（generative）和logistics regression（discriminative）有啥区别联系，我猜MLE和MAP？lz从来没对比过这俩，又把Naive Bayse讲了一遍，然而对Naive Bayse有些生，公式写错了。

11. precision/recall, tf-idf

12. 关于识别fish mail的题目, 我们想做一个email的unsupervised clustering,来识别其中的fish mail,我们应该怎么实现?
follow up:有什么challenge?
follow up:如果识别的过程中,大量发现”the,a, an"这种垃圾信息,怎么处理?

13. 如何处理数据（missing value, outlier, normalization, standarization, feature selection, feature engineering, duplicates, etc）

14. 你跟deeplearning熟吗(回：不熟)那你讲讲你对ML的什么technique比较熟悉好了，解释给我听。 (我就在白板上从linearregression一路讲解到SVM，应该算是所有ML的基础了)

15. 什么时候要用AUROC? 什么时候用PRROC? 什么时候用Accuracy?

16. 简述一下decisiontree跟randomforest，两个模型有什么样的问题?要怎么避免overfitting?

17. 那简述一下怎么做gradient-boostingdecision tree?

18. 那什么是bootstrapping？

19. 在learning很常用到kernel，那你要怎么判断一个kernel是否valid？

20. 比较一下first-ordermethod跟second-ordermethod

21. 讲一下regularization的意义。(面试官好像是想听noise，因为我一开始说避免overfitting的时候他一脸狐疑。后来想说不会这么OX遇到了一个bayesian吧，就说l1大概就是在做regression的时候加入laplacenoise然后l2就加入guassiannoise，解方程出来的时候就刚刚好会是那样。他看起来就心满意足问我下一题了)

22. 我今天有很多的广告，每个广告都会有些关键词。那我现在有针对每个关键词我所得到的revenue。那问你该怎么predict之后的revenue？(他中间有特别强调这个是个veryhigh-dimensional的问题，不能用太na?ve的方法)

23. 那你认为在做这些learning问题的时候，有什么东西是很重要的吗？(回：我觉得domainknowledge超重要)

24. MLmodel之间的利弊，在哪些情况下哪些model会比较有用，还有在very highdimensional的data是否会有一些预料之外的behavior？比较了GBDT跟Random Forest，然后SVM的kernel表现。最后当然免不了的问了一下对于deeplearning的了解与应用

25. Anomaly Detection
Given a table of system logs with data like Latency, Filebytes, User, Account, Timestamp etc, design an alert system to report anomoly
我讨论了下logistic regression来建模。朋友说是用统计的control chart

26. how to deal with missing data

27. 怎么选择Training set的百分比，选70%好还是80%好？训练的模型在已知数据里表现不错，但新数据进来了表现就不好了，有哪些可能的原因？signifiance level和power有什么关系？

28. 问了一些time series模型的问题，什么情况用AR，什么情况用MA，还有一些general的问题，比如build一个logistic model从头到尾的大致步骤，什么是bias-variance tradeoff；

然后又问了我naive Bayse，可能是上个面试官告诉他我没答好。于是又讲了一遍，然后问公式里每一项如何根据数据来计算。最后又问了bias - variance的tradeoff relation。

以上是关于MS ML的主要内容，如果未能解决你的问题，请参考以下文章

无法旋转此数据

Splunk ML vs ML

- module1.ml

ML：MLOps系列讲解之《基于ML的软件的三个层次》解读

2021-06-06