Hulu大数据团队带你深入学习Hadoop

Posted 2021-04-13 顶级程序员

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hulu大数据团队带你深入学习Hadoop相关的知识，希望对你有一定的参考价值。

立即参团

原价 ¥899.00

已有500人参团

现价只需¥399.00

文末【阅读原文】为参团链接

快点击参团吧

课程名称

《Hadoop大数据技术体系：原理、内幕与项目实践》第一期

课程特色

本课程以“互联网日志分析系统”这一大数据应用案例为主线，依次介绍相关的大数据技术，涉及数据收集，存储，数据分析以及数据可视化，最终会形成一个完整的大数据项目。

本课程以目前主流的，最新Hadoop稳定版2.7.x为基础，同时兼介绍3.0版本新增特性及使用，深入浅出地介绍Hadoop大数据技术体系的原理、内幕及案例实践，内容包括大数据收集、存储、分布式资源管理以及各类主要计算引擎，具体包括数据收集组件Flume、分布式文件系统HDFS，分布式资源管理系统YARN以及分布式计算引擎MapReduce、Hive和Presto，涉及各组件基本原理，使用方法，实战经验（优化技巧）以及在线演示。

本课程精心设计了互联网日志分析系统这一案例，帮助大家在理解理论的基础上，亲手实践Hadoop。

基础要求

了解Linux基础知识，掌握Java语言基础

主讲老师

Hulu大数据团队

董西成，毕业于中国科学院，hulu大数据架构组负责人；《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕：深入解析YARN架构设计与实现原理》作者；资深Hadoop技术实践者和研究者，曾参与商用Hadoop原型研发，以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。

谭政，毕业于北京大学，曾就职于新浪微博平台研发部；曾参与微博核心Feed系统的改造，主导多机房数据同步和容灾部署，Spark内核级优化和企业推广，Hadoop集群升级与优化，Hive On Tez优化以及推广等工作。

张虔熙，毕业于中国科学院，HBase Contributor；参与维护并优化千节点规模的Hadoop集群，对分布式存储系统有深入研究（源码级修改），尤其擅长HDFS/HBase调优及应用；利用impala与presto大数据查询引擎构建企业级OLAP引擎，对高性能查询优化有丰富经验。

开课时间

2016年12月13日

学习方式

在线直播，共10次

每周2次（周二、周四晚上20:00-22:00）

直播后提供录制回放视频，可在线反复观看，有效期1年

课程大纲

Hadoop 概述（共1课时）

大数据背景

大数据技术体系

Hadoop生态系统构成以及核心组件

Hadoop主流发行版以及选型

包括Apache、CDH、 HDP等

Hadoop单机及分布式集群搭建方法（在线演示）

Hadoop典型应用场景

包括日志分析，搜索引擎索引构建、机器学习等

课程综合案例：分布式日志分析系统

介绍分布式日志分析系统的背景、关键模块、以及采用的关键大数据技术。

大数据技术体系关键组件原理、使用与实战（共8.5课时）

分布式数据收集：Flume原理与应用（共1课时）

Flume产生背景

Flume基本原理及架构

Flume部署模式（在线演示）

Flume与Hadoop整合应用与实战

分布式日志分析系统：数据收集模块剖析

详细介绍基于TailDir和Pool Directory Source，File Channel以及HDFS sink收集日志的flume拓扑构建方式。

分布式文件系统：HDFS基础与应用（共1课时）

HDFS产生背景

HDFS基本原理

HDFS架构以及关键组件

HDFS使用方式（在线演示）

HDFS优化小技巧

分布式日志分析系统：文件存储模块剖析

详细介绍日志文件在HDFS存放方式，以及如何解决小文件，文件归档等问题。

分布式资源管理系统：YARN架构与应用（共1课时）

YARN产生背景

YARN基本原理以及架构

YARN资源调度器（Capacity Scheduler以及Fair Scheduler）

YARN基于标签的调度策略以及启用方式

YARN典型应用场景及在大数据系统中的地位

分布式日志分析系统：资源管理模块剖析

详细介绍容量调度器，多队列管理，如何启用基于标签的调度机制

分布式计算：批处理引擎MapReduce(第一部分)（共1课时）

MapReduce产生背景

MapReduce基本原理

MapReduce基本架构

MapReduce Java分布式程序设计（在线演示）

什么情况下Spark性能比MapReduce差

MapReduce的未来

分布式计算：批处理引擎MapReduce(第二部分)（共1课时）

MapReduce回顾

MapReduce多语言程序设计（在线演示）

MapReduce优化小技巧

分布式日志分析系统：ETL模块剖析

详细介绍如何使用Java API以及Hadoop Streaming方式设计ELT程序。

分布式计算：数据分析引擎Hive（第一部分）（共1课时）

Hive产生背景

Hive基本架构以及部署模式

Hive HQL基础（在线演示）

Hive创建Parquet与ORC表

总结

分布式计算：数据分析引擎Hive（第二部分）（共1课时）

Hive编程访问

Hive On Tez/Spark

Hive优化小技巧

分布式日志分析系统：数据仓库模块剖析

详细介绍如何在Hive中进行数据建模，并使用Hive查询引擎查询日志数据。

分布式计算：数据查询引擎Presto（共1课时）

Presto产生背景

Presto基本架构以及部署模式

Presto SQL基础（在线演示）

Presto优化小技巧

分布式日志分析系统：数据仓库查询模块剖析

详细介绍如何使用Presto加速数据查询效率（相比于Hive）

大数据可视化：可视化主流方案（共0.5课时）

什么是大数据可视化

可视化主流解决方案

EChart，D3，tableau, Hue等

分布式日志分析系统：报表可视化模块剖析

详细介绍如何构建日志分析系统的可视化模块。

综合案例回顾：分布式日志分析系统（共0.5课时）

案例背景

基本架构与关键模块

日志分析系统部署及维护

总结

常见问题

Q：会有实际上机演示和动手操作吗？

A：有的，几乎每节课，老师均会准备上机演示部分，学员可以学习老师的实践经验。

Q：本课程主要是基于Hadoop 2.7.x版本吗，如果3.0成熟了，内容会不会过期？

A：不会的。本课程以介绍Hadoop基本原理和使用技巧为主，这些内容适用于2.x之后各个版本，尽管Hadoop3.x有稍许的改动，但学员学完这门课后，应该有能力主动学习这些新功能和特性。

Q：本课程有专门的答疑时间吗？

A：有的。助教会统一收集学员问题，老师在每节课最后部分，会在线回答20~30个问题，并由助教整理后发布到问答社区中。

点击阅读原文——参团，咨询，查看课程

以上是关于Hulu大数据团队带你深入学习Hadoop的主要内容，如果未能解决你的问题，请参考以下文章

大数据学习---Hadoop的深入学习

大数据之hadoop深入学习

Nimbus: Hulu的深度学习平台

史上最全 SpringCloudAlibaba入门教程，从零开始带你深入♂学习——环境搭建

深入学习Hive应用场景及架构原理