万字入门推荐系统！

Posted 2021-12-04 Datawhale

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了万字入门推荐系统！相关的知识，希望对你有一定的参考价值。

最近一周我、强子、Y哥三人，根据自身如何入门推荐系统，再结合三人分别在腾讯做广告推荐、字节做视频推荐、百度做信息流推荐的经历，整理出了这份万字入门推荐系统。内容十分详细，涵盖了推荐系统基础、进阶、实战的全部知识点，并且每一块都给出了我们自己看过且觉得高质量的参考资料，所以不管你是科班还是非科班，按照这条路线走下去，找到推荐系统相关工作是完全没问题的。因为内容过于全面详细，即便你不从事推荐系统方向，只要是从事程序员，看完这篇文章也能有所收获。不过要先强调一下，如果是没有基础且时间充足的同学，可以按部就班的学，如果有一定基础或时间紧张，那就直接看核心知识。其中『机器学习、深度学习、推荐算法理论知识、推荐系统实战项目』这四块是核心知识，像数学、计算机基础可以等到你需要的时候再反过头来学习。在核心知识中也有次重点，要学会有的放矢，哪些知识是次重点，我都会在后面一一说明。

本文框架目录如下：

万字入门推荐系统

数学

主要是微积分、线性代数、概率论这三门课。

微积分

通常情况下，机器学习需要得到一个函数（模型，或者说假设）来预测未来的数据。既然是函数，那自然就离不开微积分了。微积分为我们研究函数的性质提供了理论依据，同时它也是学习概率论、最优化方法等后续课程的基础，是整个高等数学的基石。

重点掌握函数的求导法则（特别是链式法则），以及泰勒公式。这对后续的梯度下降法，牛顿法，拟牛顿法等优化算法的推导至关重要！

线性代数

机器学习算法的输入、输出、中间结果通常为向量、矩阵、张量。这些都属于线性代数里的知识。

重点掌握向量、矩阵含义及其数学运算公式。

概率论

对于机器学习来说，概率论是一种重要的工具。如果将机器学习算法的输入、输出看作随机变量/向量，则可以用概率论的观点对问题进行建模。使用概率论的一个好处是可以对不确定性进行建模，这对于某些问题是非常有必要的。另外，它还可以挖掘变量之间的概率依赖关系，实现因果推理。

重点掌握常见概率分布、概率公式。

总结

数学好是入门机器学习的优势，但并非关键。因为数学知识量太庞大了，花太多时间在其上，容易打击学习积极性。另外做算法一般分两种：理论模型和实际应用，前者的行业title是算法研究员，主要发paper、提出新的模型或者优化方法，所以对于数学能力要求很高。后者的行业title是算法工程师，致力于把模型应用于数据上，攫取商业价值，对于数学能力要求并不高。往往大部分人都属于后者，我个人也是后者。熟悉不同算法的应用场景、掌握模型落地工程技术，才是我们更应该投入精力的地方。

参考资料：

《DeepLearning》，又名「花书」，被誉为深度学习领域圣经。它前面有必备数学知识的介绍，讲得挺不错的。
B站搜索微积分、线性代数、概率论关键词，会有很多教学视频，随便选取时长较短的看看即可。

计算机基础

计算机基础包含数据结构与算法、计算机组成原理、操作系统、计算机网络、数据库、五大课程。其中数据结构与算法是面试必考内容，大家都会花时间好好学。但是另外4门课，开发岗面试中一定会问，算法岗却很少会问，再加上很多做算法的人是转行过来，非计算机科班出身，大学期间没有上过此类专业课。所以很多做算法的人计算机基础比较薄弱。但是在我看来计算机基础是很重要的。一是能提高我们计算机素养，二是增加工程代码理解能力。所以后面我会针对这四门课程，出一个面向算法工程师的系列文章，做到让大家对这些课程重点知识有个了解，同时又不会陷入细枝末节。这里先给大家做个大概讲解：

数据结构与算法

数据结构包含：数组、链表、栈、队列、树、散列表、图。数据结构本质是描述数据与数据之间的关系

算法包含：排序、查找、五大经典算法（动态规划、回溯、分支界限、分治、贪心）。计算机解决问题其实没有任何奇技淫巧，它唯一的解决办法就是穷举。算法设计的本质无非就是先思考「如何穷举」，然后再追求「如何聪明地穷举」。「聪明的穷举」分为两部分：「去掉重复的穷举」、「去掉不必要的穷举」。比如，备忘录法，用数组保存求过的结果，用空间换时间，这就是去掉重复的穷举；动态规划根据最优子结构，使当前问题只与某几个子问题有关，从而大大减少问题分解次数，这就是去掉不必要穷举。

参考资料：

《剑指offer》，准备过面试的人应该都知道这本书。
《大话数据结构》通俗易懂。剩下的就是多刷LeetCode，多看别人的题解。

计算机组成原理

讲解计算机组成结构。主要由CPU（运算器、控制器），存储器（内存、外存），IO设备（输入、输出设备），总线这几部分构成。如果把计算机比作人，那么CPU是人的大脑，负责控制全身和运算；内存是人的记忆，负责临时存储；外存是人的笔记本，负责永久存储；输入设备是耳朵或眼睛或嘴巴，负责接收外部的信息存入内存；输出设备是你的脸部（表情）或者屁股，负责输出处理后的结果；以上所有的设备都通过总线连接，总线相当于人的神经。

操作系统

是应用程序与硬件之间的管家：对下管理计算机硬件资源（CPU、存储器、IO设备）、对上管理应用程序。

内核（kernel）是直接控制硬件的。比如：内核控制硬件有1000种方式，导致直接调内核去操作硬件很麻烦，于是就封装内核，向外提供了易于调用的接口，比如：桌面系统、shell等。这些接口对非编程人员用户还是不友好，于是编程人员用编程语言再对这些接口在进行封装，就产生了应用程序。本质是封装的思想。

我们学的编程语言到最后都是在调用操作系统内核API。所以这也是为什么所有的语言都有不同操作系统版本，因为每个操作系统的内核API是不同的。

参考资料：

《深入理解计算机系统》，配套视频：https://www.bilibili.com/video/BV1cD4y1D7uR
《鸟哥的Linux私房菜》，Linux是最常用的服务器系统，也是我们工作中最常接触的。熟悉Linux常用命令很有必要。

计算机网络

很多教材都是从五层模型（物理层、数据链路层、网络层、传输层、应用层）讲解。其实这样讲是比较晦涩难懂的，因为很多东西我们都没接触过，很陌生。好的办法是通过人类的语言系统进行类比。计算机网络是计算机的语言系统，与人类语言系统的本质是一样的。

人类语言系统构成：

词汇
语法
声带+耳朵
传播介质：空气

以此类比到计算机网络：

数据：计算机之间传输的信息
通信协议：决定数据的排列方式
网卡：数据发射器与接收器
传播介质：光纤、网线、WIFI

此外还有人的身份证相当于Mac地址，家庭地址相当于IP地址等等。计算机网络中的许多概念都可以用生活中人类是如何通信的进行类比。人类通信我们是非常熟悉的，所以非常有助于我们理解。

参考资料：

《计算机网络自顶向下方法》这本书相比于其他计算机网络书籍较通俗易懂，学习起来应该不太费劲。这本书重点章节是第2、3、4、5、6章，其他章节可以跳过。配套视频：https://www.bilibili.com/video/BV1mb4y1d7K7
谢希仁的《计算机网络》，是国内很有名的教材。

数据库

数据库就是我们存储数据的工具。数据如何存储与读取，直接决定了整个系统的效率。常用的关系型数据库是mysql，非关系型数据库是Redis

参考资料：

《SQL必知必会》，快速掌握常用的SQL语法
一天学会 MySQL 数据库：https://www.bilibili.com/video/BV1Vt411z7wy

机器学习

人工智能、机器学习、深度学习关系如下：

我们一般说机器学习都是指除了深度学习以外的机器学习，也称为传统机器学习。虽然近几年深度学习越来越火，但是很多领域还是在使用机器学习，并且学好机器学习，对于AI算法基础和知识广度都有很大提高。这里可以先给大家罗列一些必备的基础知识:

首先要知道一些基础的术语和概念，比如有监督与无监督，训练集，验证集与测试集，经验误差与泛化误差，方差与偏差，过拟合与欠拟合等，再比如比较重要的一些模型性能度量方法(混淆矩阵，精确率，召回率，auc，roc等)，再比如经典的评估方法(留出，交叉验证，自助等)

其次是经典的模型。机器学习模型非常多，全部掌握不现实，我给大家罗列几个经典，也是面试中常考的模型：逻辑回归、SVM、树模型、集成学习、朴素贝叶斯、K-Means聚类、PCA。（EM、最大熵、概率图这些考的少，能了解是加分项）。

在学习过程中，各个模型是相互联系的，不要孤立去分析单个模型。比如：逻辑回归，我认为是最基础、也最重要的模型：

逻辑回归=线性回归+sigmoid激活函数，从而将回归问题转换为分类问题
逻辑回归+矩阵分解，构成了推荐算法中常用的FM模型
逻辑回归+softmax，从而将二分类问题转化为多分类问题
逻辑回归还可以看做单层神经网络，相当于最简单的深度学习模型

通过逻辑回归由点及面，就能演化出如此多模型。再比如树模型。我们把以决策树为基础的一系列模型统称为树模型，也是AI比赛中最常用的模型。

决策树经历了三次改进，ID3、C4.5、CART，主要区别在于一个根据信息增益划分特征、一个根据信息增益率、一个根据基尼指数。
随机森林=决策树+Bagging集成学习
GBDT=决策树+AdaBoost集成学习
XGB是陈天奇2014年提出，相当于GBDT的工程改进版，在实用性和准确度上有很大提升。比如：使用泰勒二阶展开近似损失函数，支持处理缺失值、在特性粒度上并行计算等等特性。
LGB是微软2016年提出，对XGB进行了改进，使用单边梯度采样算法减少不必要的样本；在寻找最优分割点时采用直方图算法使计算代价更小；支持类别特征...
CGB是Yandex2017年提出，对类别特征进行了更完美的支持。

所以学习模型，要由点及面，层层递进。这样不仅方便理解，也有利于归纳总结，同时还能锻炼搭建知识体系的能力。

关于上面这些知识，整理一个系列帮助大家由点及面打通这块知识，文章已写了五篇，后面会陆续放出来。

实战

我认为最好的实战方式就是参加AI比赛。这个过程中不仅能与高手同台竞技，如果获奖还能拿到不菲的奖金（很多比赛奖金都是10万以上）与荣誉。我之前参加了很多比赛，拿过冠军和多个top 10。对于我个人能力提升与找工作都有很大帮助。这里推荐三个公众号：kaggle竞赛宝典、Coggle数据科学、第一次打比赛。他们会发布新比赛的通知与过往比赛的解决方案，非常值得学习。

再就是书籍：《机器学习算法竞赛实战》这本书是Datawhale成员，top级竞赛选手鱼佬写的。

参考资料：

如果是一个机器学习小白，那么推荐两个入门视频，吴恩达或者李宏毅的ML视频（B站上都有），先快速过一遍，了解机器学习是什么。
如果有了一定的机器学习基础，就需要去进阶。建议是看书与高质量文章。推荐两本书：周志华的《机器学习》、李航的《统计学习方法》这两本书，可以好好先研究一本，注意这里是研究，一本通了，另一本也就差不多。如果发现看一遍很难看懂，这是正常现象，随着后面实践经历慢慢变多，再看一遍，会有很多新的感悟。再就是公众号：Datawhale，里面有很多高质量文章。

注意：学习过程中一定要跟着实战，否则知识很难真正理解。

深度学习

前面也提到了，深度学习本属于机器学习，但是鉴于其发展迅速、应用越来越广泛，所以单独拿出来说。深度学习每年新模型、新技术层出不穷，一味追求新技术不可取，要先打好基础。比如：对于一个简单的全连接神经网络，包含训练算法（正向传播、反向传播），激活函数（sigmoid、ReLU、Maxout、softmax等），正则化（L1和L2、Dropout、提前早停等），优化算法（随机梯度下降、Momentum、Adagrad、Adam等）

掌握了基础后，再根据自身领域学习相关的模型。大部分人找工作属于这三个领域：

计算机视觉（CV）：卷积神经网络（CNN）及其改进。
自然语言处理（NLP）：循环神经网络（RNN）及其改进，Transformer、Bert等。
推荐算法：Embeding、Wide & Deep及其改进。

实战

熟练使用TensorFlow或pytorch去实现训练模型。通过官网的一些demo就可以快速的掌握一个深度学习框架的基本用法，然后在实际的应用中再去了解一些框架的高级用法，这个不需要花太多的时间单独学习，应该边用边学习。

积累模型调参经验，比如学习率，batchsize, 优化器对模型的影响，使用tensorboard可视化训练过程的曲线，通过曲线分析训练过程的相关问题，然后再调参或者调解网络结构，在实践的过程中要有意识的去总结一些经验。

参考资料：

李沐《动手学深度学习》https://zh-v2.d2l.ai/
邱锡鹏《神经网络与深度学习》https://nndl.github.io/
吴恩达《深度学习》https://www.bilibili.com/video/BV1FT4y1E74V
《DeepLearning》，又名「花书」，被誉为深度学习领域圣经。
TensorFlow、pytorch官网是最好的参考资料。如果英语不好，那么可以看看下面的资料：
1. Pytorch学习笔记：https://blog.csdn.net/wuzhongqiang/category_10024538.html
2. 《30天吃掉那只TensorFlow2》：https://github.com/lyhue1991/eat_tensorflow2_in_30_days
3. 《20天吃掉那只Pytorch》：https://github.com/lyhue1991/eat_pytorch_in_20_days
4. PyTorch深度学习快速入门教程：https://www.bilibili.com/video/BV1hE411t7RN

数据挖掘与分析

熟练使用相关工具包：numpy、pandas、matplotlib（seabron是matplotlib的简化版）、Scikit-Learn。完成数据的可视化、分析以及特征工程。工具包的学习建议边用边学，可以先看一些中文教程整体了解一下工具包的使用。在具体使用的时候，如果忘记了可以去对应工具包的官网查看详细的文档。

除了熟悉数据分析工具以外，其实更需要的是数据分析的方法，我觉得最好的学习方式就是看开源竞赛的方案，因为在开源方案中，作者会写很多他们分析问题的思路，以及对可视化结果给出的他们认为的正确观点。

参考资料：

英文教程首推官网，中文教程推荐Datawhale的开源项目

numpy中文教程：https://github.com/datawhalechina/powerful-numpy
pandas中文教程（这份文档可能比官方文档还适合学习）：https://github.com/datawhalechina/joyful-pandas
matplotlib中文教程：https://github.com/datawhalechina/fantastic-matplotlib
《Hands-on-Machine-Learning-with-Scikit-Learn》用sklearn工具实现各种机器学习模型

大数据

在实际工业场景中，我们面临的都是海量数据，也就是所谓的大数据。再用上面提到的MySQL数据库、numpy、pandas等工具是不行的。这个时候就需要专业的大数据处理工具：Hadoop、Spark生态。有的同学想从这些生态的基本原理学起，如果有时间，知其所以然是好的，但往往我们需要兼顾算法和大数据，时间并不是很充足，所以建议大数据这块可以先掌握到会用的层次，当做工具即可。

常用的：首先是Hive查询，也就是用HQL进行一些表数据的基础查询，这个和SQL有些类似，另外一个，就是sparkSQL以及spark的DataFrame，这些相关操作常用来做数据分析和处理，处理完毕之后，写回到Hive表里面。其次，遇到复杂的处理逻辑，就需要写原生spark脚本去跑数据了。关于这块知识，后面也会整理一篇文章。

参考资料：

这一块实操性特别强，所以建议先看视频，跟着视频一步步来：