这次搞了件大事，整理最新学习路线（含时间分配规划）

Posted 2021-12-06 zhisheng_blog

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了这次搞了件大事，整理最新学习路线（含时间分配规划）相关的知识，希望对你有一定的参考价值。

由于目前各个大厂对推荐系统算法岗位给出了不可想像的待遇，确实按耐不住了我的欲望，所以前一阵子我用了4-5个月学习这方面的知识内容。

平时工作日每天晚大概利用3-4个小时，周六日每天利用大概9-10个小时来学习，从而达到高级算法和数据结构的能力。

你们都知道我之前从事Python、Java等方向工作，所以学习也相对来说比较轻松一些。在我学习后，我发现确实学习这些确实不需要更丰富的经验。

分布式大数据开发建议分成两部分学习，第一部分为大数据生态技术理论，第二部分为算法理论与实践。

学习后完全可以胜任分布式大数据开发，能都使用Hadoop、Spark、Kafka、Zookeeper、Flink等技术实现推荐系统建模、算法选择、算法应用的整个实战项目。结合推荐系统技术栈、实现推荐系统的搭建、用户画像的设计和特征中心的搭建。

如果你决心要在这个领域深耕，那么算法底层方面的知识坚决不可跨越的，欲速则不达。

分享一套当时我学习过的教程，有视频、代码、PPT等，帮助大家打好基础。

扫描二维码领取！

【添加人数过多，请耐心等待哈】

👇👇👇

跟着这个路线重新去梳理一下你的学习路线，相信你对推荐算法能力会有质的提升。

资源已经整理好了，文末附下载方式！以下是详细内容介绍～

大数据技术生态

Hadoop平台

Hadoop大数据分布式平台安装搭建与部署
Hadoop大数据生态环境体系运维基础理论
Hadoop分布式框架系统理论知识
分布式文件系统HDFS存储体系理论知识
分布式文件系统HDFS Shell操作与代码实践
分布式计算引擎MapReduce运行原理与实践开发
分布式计算引擎常用数据计算引擎原理与实践开发
分布式资源调度框架Yarn核心知识与调度原理
分布式资源调度框架Yarn监控配置管理
开源调度工具Airflow工作原理与使用教程
MapReduce实现用户行为分析实践

分布式锁服务Zookeeper

Zookeeper在大数据系统中的作用与地位
Zookeeper的框架原理与协调服务机制
Zookeeper分布式锁服务环境部署
Zookeeper锁服务Shell实践操作
Zookeeper监听器原理
Zookeeper竞争选主机制代码实践
Zookeeper服务器节点动态上下线实践

分布式数据仓库工具Hive

分布式数据仓库设计定位
Hive数据仓库环境部署搭建
Hive-DDL查询&修改等实践操作
Hive基本语法操作及UDF、UDAF、UDTF应用实践
Hive实现动态分区插入原理及操作
Hive实现行专列，列传行原理及实践操作
Hive常用优化方法及数据倾斜问题分析
Hive实现多表关联，避免数据溢出原理及实践操作
Hive读取本地/集群文件，数据处理，数据落地实践
Hive 实践JOIN、LEFT JOIN、RIGHT JOIN FUll JOIN
Hive 排序优化，ORDER BY和Row() Number()区别
Hive 去重场景优化，Distinct和Group by实践
Hive 统计数据优化Count场景应用介绍实践
Hive 多表关联优化，MAPJOIN的应用场景实践
Hive 查询Json数据优化，字符串拼接优化
Hive 常用UDF函数原理介绍，实践应用

分布式数据库HBase/Redis

HBase数据库设计原理与存储方法
HBase物理存储结构和逻辑存储详情解析
HBase读写数据流程及Flush流程
HBase分布式环境安装部署
HBase基本SQL操作与代码实践
Redis物理存储结构和逻辑存储原理解析
Redis 常用5种数据结构类型结构解析
Redis 基本操作命令和应用场景解析
HBase RowKey设计原则与优化方法

分布式日志系统Flume

Flume在大数据生态系统中的定位与作用
Flume架构设计原理及流程
Flume自定义Source、Sink多维度实践
Flume断点续文件实践
Flume事务性及传输流程
Flume自定义拦截器原理与实践

分布式消息队列系统Kafka

Kafka设计原理、定位及高可用性原理
Kafka与Flume的设计异同点
Kafka生产者LSR原理及ACK机制
Kafka消费者分区分配策略
Kafka分布式环境安装部署
Kafka生产者、消费者理论及结合实践
Flume+Kafka实时日志采集系统实践

分布式大数据计算引擎Spark

Structured Streaming双流join最佳实践
Spark原理与架构设计介绍
Spark和Hadoop的异同点分析
Spark分布式环境搭建部署
Spark几种运行模式的原理和对比
Spark RDD底层数据原理解析
Spark RDD 五种主要配置原理介绍
Spark RDD依赖关系与持久化
Spark Job的划分与调度信息抽取
Spark Transformation与Action算子的区别
Spark高可用保证的实现
Spark WordCount快速上手实践
Spark DataFrame的底层原理与基本操作
Spark DataFrame与DataSet之间的交互
Spark DataFrame、DataSet、RDD之间的关系
Spark SQL自定义函数实践
Spark SQL基本操作与Hive实践
Spark SQL转RDD、转DataFrame数据结构实践
Spark Streaming实时流处理原理与架构
Spark Streaming WordCount入门DStream
Spark Streaming DStream数据流的创建
Spark Streaming DStream有/无状态转化操作
Spark Streaming+Kafka应用场景和代码实践
实践计算引擎Structured Streaming原理与优势
Structured Streaming基本编程模型和实践
Structured Streaming+Kafka应用场景和代码实践
Structured Streaming延迟数据处理Watermark原理应用

分布式实时计算引擎Flink

Flink原理与架构设计介绍
Flink Standalone模式及集群模式安装部署
Flink基本编程模型介绍
Flink滑动窗口实践数据统计
Flink DataStream API之DataSource和自定义Source
Flink DataStream API之Partition操作
Flink DataStream API之DataSink和自定义Sink区别
Flink DataSet批处理原理
Flink Dataset API之DataSource和自定义Source
Flink Dataset API之Transformations操作
Flink Dataset API之Partition操作
Flink Dataset API之DataSink和自定义Sink
Flink、Dataset、API之Broadcast&Accumulators&Counters
Flink Dataset API之DistributedCache(分布式缓存)
Flink状态(State)管理与CheckPoint容错恢复
Flink Restart Strategies(重启策略)
Flink Watermark与Window结合延迟数据处理实践
Flink支持的DataType和序列化

算法理论部分

机器学习介绍

自然语言处理原理和常用的应用场景
常用的文本处理jieba中文分词库原理与实践
Word2Vec文本向量原理和实践
TFIDF、TextRank算法原理和代码实践
LCS文本相似度计算原理与应用
HMM分词算法原理详解
基于深度学习Dssm文本相似性模型原理与实践

用户画像

用户画像的概念和大厂用户画像的应用前景
用户画像数据层原理和ods层数据开发应用实践
用户画像算法层原理和mds、sds层数据开发应用实践
用户画像业务层原理和rpt层数据开发应用实践
用户画像静态数据和动态数据区别和联系
用户画像标签建模场景和应用实践
用户画像标签衰减系数模型介绍，应用实践
用户画像业务应用场景介绍，人群包开发实践

推荐系统-召回

召回策略在推荐系统中的作用和应用场景
常用的召回算法原理分析和源码解读
CB、CF算法原理介绍，实践，数据实践
大数据环境下基于协同过滤的应用和实践
基于深度学习的双塔召回算法原理解析和实践
基于内容召回算法的原理和实践
ALS模型算法原理与用户召回实践
召回阶段用户、物品冷启动问题实践解决方案
面试答疑-召回面试问题重现，分析，解答

推荐系统-排序

面试答疑-排序面试问题重现，分析，解答
推荐策略在推荐系统中的作用和应用场景
常用的排序算法原理分析和源码解读
排序阶段经典算法的发展历程
CTR预估模型在推荐系统中的主要作用
LR逻辑回归算法在推荐系统中的基本实践
FM、FFM、DeepFFM排序算法原理和实践应用
排序模型进阶FTRL原理和实践
排序模型进阶Wide&Deep原理和实践

附加项LeetCode自我提升

Top50大数据&算法面试数据结构常考题解析

本视频出品人：毕业于985博士--徐风，目前就职于BAT之一，大数据推荐算法专家，在BAT曾主导和参与30+商业项目。

长按下方二维码 2 秒

立即领取

（添加小助理人数较多，请耐心等待）

曾获得1100支参赛团Kaggle竞赛一等奖，在某知名互联网公司担任算法工程师，通过改进竞价算法，使公司净利率提高100%。

有幸当时接触到了这份资源，能有一位这样的学术届与工业届双开花的大佬教程陪伴，完成从学校到职场的过渡。

以上是关于这次搞了件大事，整理最新学习路线（含时间分配规划）的主要内容，如果未能解决你的问题，请参考以下文章

前搜房网副CTO曹艳白干了件大事！

DuerOS干了件大事。没错，这就是拿AI当年货的元年

配送路径规划基于matlab遗传算法连锁超市配送路线规划含Matlab源码 2347期

房产圈的极客---前搜房网副CTO曹艳白干了件大事！

高考估分查分选志愿一键搞定_支付宝又操办了件人生大事

18年后，张亚勤李开复王坚沈向洋洪小文等又干了件大事