大数据入门学习指南
Posted Lansonli
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据入门学习指南相关的知识,希望对你有一定的参考价值。
文章目录
大数据入门学习指南
前情提要
一、大数据基础
二、大数据环境搭建
三、Hadoop
四、Hive
五、HBase
六、Kafka
七、Scala
八、Spark
九、Flink
大数据入门学习指南
前情提要
大数据入门核心技术栏目刚打造出来没多久,内容十分丰富,集合将近200篇高质文章带你轻松入门。
但是由于文章很多,集合很多不同系列的知识点,在栏目里面难以标注顺序,这次博主花时间整理一份详细的学习指南,对于新手是非常友好的。
只要跟着学,想进入大数据做开发是很容易的,前提你得自律加坚持。
本文将持续更新优化,精心打造最优的大数据入门教程
一、大数据基础
1、大数据概念
2、大数据的特点(5v)
3、大数据应用场景
4、大数据业务分析基本步骤
5、分布式技术
二、大数据环境搭建
1、Hadoop编译
2、分布式环境搭建
三、Hadoop
1、Hadoop介绍
2、Hadoop发展简史和特性优点
3、Hadoop国内外应用
4、Hadoop发行版公司
5、Hadoop架构
6、Hadoop集群搭建
7、HDFS分布式文件系统简介
8、HDFS的Shell命令行使用
9、HDFS的高级使用命令
10、HDFS的数据读写流程
11、HDFS的元数据辅助管理
12、HDFS的API操作
13、HDFS其他功能
14、HDFS的高可用机制
15、Hadoop的联邦机制 Federation
16、MapReduce计算模型介绍
17、MapReduce编程规范及示例编写
18、MapReduce程序运行模式和深入解析
19、MapReduce分区
20、MapReduce的排序和序列化
21、MapReuce的Combineer
22、MapReduce的自定义分组
23、MapReduce的运行机制详解
24、MapReduce高阶训练
25、YARN通俗介绍和基本架构
26、YARN三大组件介绍
27、YARN运行流程
28、YARN的调度器Scheduler
29、关于YARN常用参数设置
30、Hadoop3.x的介绍
资源包下载地址:大数据Hadoop基础软件包-其它文档类资源-CSDN下载https://download.csdn.net/download/xiaoweite1/85433829
四、Hive
1、Hive基本概念
2、Hive的三种安装模式和MySQL搭配使用
3、Hive数据库和表操作
4、Hive查询语法
5、Hive的内置函数
6、Hive的表生成函数
7、Hive的开窗函数
8、Hive自定义函数
9、Hive的数据压缩
10、Hive的数据存储格式
11、Hive调优
12、Hive综合案例
13、手撕这十道HiveSQL题吊打面试官
五、HBase
1、HBase基本简介
2、HBase集群安装操作
3、HBase数据模型
4、HBase的相关操作-客户端命令式
5、HBase的相关操作JavaAPI方式
6、HBase的高可用
7、Hbase的架构
8、Apache Phoenix的基本介绍
9、Apache Phoenix的安装
10、Apache Phoenix的基本入门操作
11、Apache Phoenix的视图操作
12、Apache Phoenix 二级索引
13、HBase读取和存储数据的流程
14、HBase的原理及其相关的工作机制
15、HBase的Bulk Load批量加载操作
16、HBase的协处理器(Coprocessor)
17、HBase全面调优
18、使用HBase的陌陌案例
六、Kafka
1、消息队列和Kafka的基本介绍
2、Kafka特点总结和架构
3、Kafka的集群搭建以及shell启动命令脚本编写
4、kafka的shell命令使用
5、Kafka的java API编写
6、安装Kafka-Eagle
7、Kafka的分片和副本机制
8、Kafka如何保证数据不丢失
9、kafka消息存储及查询机制原理
10、kafka生产者数据分发策略
11、Kafka的消费者负载均衡机制和数据积压问题
12、Kafka配额限速机制
七、Scala
栏目地址:大数据必学语言Scala
八、Spark
1、框架概述
2、四大特点
3、框架模块初步了解
4、三种常见的运行模式
5、环境搭建本地模式 Local
6、环境搭建集群模式 Standalone
7、应用架构基本了解
8、环境搭建集群模式 Standalone HA
9、Spark On Yarn两种模式总结
10、环境搭建集群模式 Spark on YARN
11、应用开发基于IDEA集成环境
12、Spark Core的RDD详解
13、Spark Core的RDD创建
14、Spark Core的RDD操作
15、Spark Core的RDD常用算子
16、Spark Core的RDD算子练习
17、Spark Core的RDD持久化
18、Spark Core的RDD Checkpoint
19、Spark Core的共享变量
20、Spark Core外部数据源引入
21、Spark Core案例-SogouQ日志分析
22、内核原理
23、SparkSQL 概述
24、SparkSQL数据抽象
25、SparkSQL的RDD、DF、DS相关操作
26、SparkSQL数据处理分析
27、SparkSQL案例花式查询和WordCount
28、SparkSQL案例三电影评分数据分析
29、SparkSQL案例四开窗函数
30、SparkSQL自定义UDF函数
31、Spark On Hive
32、SparkSQL的External DataSource
33、SparkSQL分布式SQL引擎
34、Spark Streaming概述
35、SparkStreaming数据抽象 DStream
36、SparkStreaming实战案例一 WordCount
37、SparkStreaming实战案例二 UpdateStateByKey
38、SparkStreaming实战案例三 状态恢复 扩展
39、SparkStreaming实战案例四 窗口函数
40、SparkStreaming实战案例五 TopN-transform
41、SparkStreaming实战案例六 自定义输出 foreachRDD
42、SparkStreaming的Kafka快速回顾与整合说明
43、SparkStreaming整合Kafka 0.10 开发使用
44、Structured Streaming概述
45、Structured Streaming Sources 输入源
46、Structured Streaming Operations 操作
47、Structured Streaming Sink 输出
48、Structured Streaming 输出终端/位置
49、Structured Streaming 整合 Kafka
50、Structured Streaming 案例一实时数据ETL架构
51、Structured Streaming 物联网设备数据分析
52、Structured Streaming 事件时间窗口分析
53、Structured Streaming Deduplication
54、扩展阅读 SparkSQL底层如何执行
55、Spark的关键技术回顾
九、Flink
1、乘风破浪的Flink-Flink概述
2、Flink用武之地
3、Flink安装部署 Local本地模式
4、Standalone独立集群模式
5、Standalone-HA高可用集群模式
6、Flink On Yarn模式
7、参数总结
8、Flink入门案例
9、Flink原理初探
10、流处理相关概念
11、流批一体API Source
12、流批一体API Transformation
13、流批一体API Sink
14、流批一体API Connectors JDBC
15、流批一体API Connectors Kafka
16、流批一体API Connectors Redis
17、Flink四大基石
18、Flink Window操作
19、案例一 基于时间的滚动和滑动窗口
20、案例二 基于数量的滚动和滑动窗口
21、案例三 会话窗口
22、Time与Watermaker
23、Watermaker案例演示
24、Allowed Lateness案例演示
25、Flink 状态管理
26、State代码示例
27、Flink 容错机制 Checkpoint
28、Flink 容错机制 自动重启策略和恢复
29、Flink 容错机制 Savepoint
30、Flink Table API & SQL 介绍
31、Table与SQL案例准备 依赖和程序结构
32、Table与SQL案例准备 API
33、Table与SQL相关概念
34、Table与SQL 案例一
35、Table与SQL 案例二
36、Table与SQL 案例三
37、Table与SQL 案例四
38、Table与SQL 案例五 FlinkSQL整合Hive
39、Table与SQL 总结 Flink-SQL常用算子
40、Flink模拟双十一实时大屏统计
41、Flink实现订单自动好评
42、BroadcastState
43、扩展阅读 关于并行度
44、扩展阅读 End-to-End Exactly-Once
45、扩展阅读 双流Join
46、扩展阅读 异步IO
47、扩展阅读 File Sink
48、扩展阅读 Streaming File Sink
以上是关于大数据入门学习指南的主要内容,如果未能解决你的问题,请参考以下文章
大数据(9f)Flink双流JOIN
2021年大数据Flink(四十五):扩展阅读 双流Join
大数据(9h)FlinkSQL双流JOIN
大数据(9h)FlinkSQL双流JOINLookup Join
Flink实时数据处理实践经验(Flink去重维表关联定时器双流join)
面试官: Flink双流JOIN了解吗? 简单说说其实现原理