Hulu大数据团队带你深入学习Hadoop
Posted 顶级程序员
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hulu大数据团队带你深入学习Hadoop相关的知识,希望对你有一定的参考价值。
原价 ¥899.00
已有500人参团
现价只需¥399.00
文末【阅读原文】为参团链接
快点击参团吧
《Hadoop大数据技术体系:原理、内幕与项目实践》第一期
本课程以“互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技术,涉及数据收集,存储,数据分析以及数据可视化,最终会形成一个完整的大数据项目。
本课程以目前主流的,最新Hadoop稳定版2.7.x为基础,同时兼介绍3.0版本新增特性及使用,深入浅出地介绍Hadoop大数据技术体系的原理、内幕及案例实践, 内容包括大数据收集、存储、分布式资源管理以及各类主要计算引擎,具体包括数据收集组件Flume、分布式文件系统HDFS,分布式资源管理系统YARN以及分布式计算引擎MapReduce、Hive和Presto,涉及各组件基本原理,使用方法,实战经验(优化技巧)以及在线演示。
本课程精心设计了互联网日志分析系统这一案例,帮助大家在理解理论的基础上,亲手实践Hadoop。
了解Linux基础知识,掌握Java语言基础
Hulu大数据团队
董西成,毕业于中国科学院,hulu大数据架构组负责人;《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。
谭政,毕业于北京大学,曾就职于新浪微博平台研发部;曾参与微博核心Feed系统的改造,主导多机房数据同步和容灾部署,Spark内核级优化和企业推广,Hadoop集群升级与优化,Hive On Tez优化以及推广等工作。
张虔熙,毕业于中国科学院,HBase Contributor;参与维护并优化千节点规模的Hadoop集群,对分布式存储系统有深入研究(源码级修改),尤其擅长HDFS/HBase调优及应用;利用impala与presto大数据查询引擎构建企业级OLAP引擎,对高性能查询优化有丰富经验。
2016年12月13日
在线直播,共10次
每周2次(周二、周四晚上20:00-22:00)
直播后提供录制回放视频,可在线反复观看,有效期1年
Hadoop 概述(共1课时)
大数据背景
大数据技术体系
Hadoop生态系统构成以及核心组件
Hadoop主流发行版以及选型
包括Apache、CDH、 HDP等
Hadoop单机及分布式集群搭建方法(在线演示)
Hadoop典型应用场景
包括日志分析,搜索引擎索引构建、机器学习等
课程综合案例:分布式日志分析系统
介绍分布式日志分析系统的背景、关键模块、以及采用的关键大数据技术 。
大数据技术体系关键组件原理、使用与实战(共8.5课时)
分布式数据收集:Flume原理与应用(共1课时)
Flume产生背景
Flume基本原理及架构
Flume部署模式(在线演示)
Flume与Hadoop整合应用与实战
分布式日志分析系统:数据收集模块剖析
详细介绍基于TailDir和Pool Directory Source,File Channel以及HDFS sink收集日志的flume拓扑构建方式。
分布式文件系统:HDFS基础与应用(共1课时)
HDFS产生背景
HDFS基本原理
HDFS架构以及关键组件
HDFS使用方式(在线演示)
HDFS优化小技巧
分布式日志分析系统:文件存储模块剖析
详细介绍日志文件在HDFS存放方式,以及如何解决小文件,文件归档等问题。
分布式资源管理系统:YARN架构与应用 (共1课时)
YARN产生背景
YARN基本原理以及架构
YARN资源调度器(Capacity Scheduler以及Fair Scheduler)
YARN基于标签的调度策略以及启用方式
YARN典型应用场景及在大数据系统中的地位
分布式日志分析系统:资源管理模块剖析
详细介绍容量调度器,多队列管理,如何启用基于标签的调度机制
分布式计算:批处理引擎MapReduce(第一部分)(共1课时)
MapReduce产生背景
MapReduce基本原理
MapReduce基本架构
MapReduce Java分布式程序设计(在线演示)
什么情况下Spark性能比MapReduce差
MapReduce的未来
分布式计算:批处理引擎MapReduce(第二部分)(共1课时)
MapReduce回顾
MapReduce多语言程序设计(在线演示)
MapReduce优化小技巧
分布式日志分析系统:ETL模块剖析
详细介绍如何使用Java API以及Hadoop Streaming方式设计ELT程序。
分布式计算:数据分析引擎Hive(第一部分)(共1课时)
Hive产生背景
Hive基本架构以及部署模式
Hive HQL基础(在线演示)
Hive创建Parquet与ORC表
总结
分布式计算:数据分析引擎Hive(第二部分)(共1课时)
Hive编程访问
Hive On Tez/Spark
Hive优化小技巧
分布式日志分析系统:数据仓库模块剖析
详细介绍如何在Hive中进行数据建模,并使用Hive查询引擎查询日志数据。
分布式计算:数据查询引擎Presto(共1课时)
Presto产生背景
Presto基本架构以及部署模式
Presto SQL基础(在线演示)
Presto优化小技巧
分布式日志分析系统:数据仓库查询模块剖析
详细介绍如何使用Presto加速数据查询效率(相比于Hive)
大数据可视化:可视化主流方案(共0.5课时)
什么是大数据可视化
可视化主流解决方案
EChart,D3,tableau, Hue等
分布式日志分析系统:报表可视化模块剖析
详细介绍如何构建日志分析系统的可视化模块。
综合案例回顾:分布式日志分析系统(共0.5课时)
案例背景
基本架构与关键模块
日志分析系统部署及维护
总结
Q: 会有实际上机演示和动手操作吗?
A: 有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验。
Q: 本课程主要是基于Hadoop 2.7.x版本吗,如果3.0成熟了,内容会不会过期?
A:不会的。本课程以介绍Hadoop基本原理和使用技巧为主,这些内容适用于2.x之后各个版本,尽管Hadoop3.x有稍许的改动,但学员学完这门课后,应该有能力主动学习这些新功能和特性。
Q: 本课程有专门的答疑时间吗?
A: 有的。助教会统一收集学员问题,老师在每节课最后部分,会在线回答20~30个问题,并由助教整理后发布到问答社区中。
点击阅读原文——参团,咨询,查看课程
以上是关于Hulu大数据团队带你深入学习Hadoop的主要内容,如果未能解决你的问题,请参考以下文章