《企业Hive数据仓库的搭建之路》互联网行业从业十年的大拿,全程案例式教学

Posted 炼数成金前沿推荐

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《企业Hive数据仓库的搭建之路》互联网行业从业十年的大拿,全程案例式教学相关的知识,希望对你有一定的参考价值。

本课程以大型互联网公司的实际案例来实战型的讲授围绕Hive数据仓库的整个建设过程,对细节内容进行逐一的讲解。课程首先介绍了Hive分布式数据库,区别于关系型数据库的差异和特性,另外通过一些Hive优化知识和真实案例分析,帮助同学们在掌握Hive开发的基础上,也具备Hive调优的一般方法和能力。接着通过数据仓库的概念、架构、建模、维度建模介绍,让大家熟悉数据仓库的一般建设思路,最后通过模拟真实的数据仓库搭建案例,贯穿整个课程所学习到的知识点,切实帮助大家具备从无到有建设Hive数据仓库的能力。


课程大纲:

第一课 Hive与Hadoop

    (1) Hadoop和MapReduce

    (2) Hadoop生态中的Hive

    (3) Hive与关系型数据库的差异

    (4) Hive安装

第二课 Hive的特性1

    (1) 内部表与外部表

    (2) insert与insert overwrite

    (3) mapjoin

    (4) group by/order by/partition by/sort by/cluster by

第三课 Hive的特性2

    (1) 动态分区、静态分区

    (2) streaming转换数据

    (2) 一次读取多次插入

    (3) 文件压缩格式

第四课 Hive的特性3

    (1) UDF

    (2) UDAF

    (3) UDTF

第五课 Hive调优

   (1) Hive优化通用思路

   (2) 执行计划

   (3) Hive调优常用方法

   (3) Hive调优案例

第六课 Hive实战

   (1) 某电商网站,按平台、版本、城市维度统计PV、UV

   (2) 某电商网站,按平台、版本、城市多种维度组合,统计PV、UV

   (3) 某电商网站,按平台、版本、城市多种维度组合,统计PV、UV、下单量、下单用户数

第七课 数据仓库概要

   (1) 数据仓库起因

   (2) 数据仓库发展

   (3) 数据仓库定义

   (4) 数据仓库与数据库的区别

第八课 数据仓库架构

   (1) Inmon 与 Kimball

   (2) 混合架构 与 DataVault架构

   (3) 数仓架构选型的思考

   (4) 数据仓库分层

第九课 数据仓库建模

  (1) 什么是数据模型

  (2) 为什么需要数据模型

  (3) 如何创建数据模型

  (4) 数仓建模的方法介绍

第十课 维度建模

  (1) 维度建模基本概念

  (2) 维度建模技术

  (3) 维度建模过程

  (4) 维度建模常见问题

第十一课 从0到1搭建Hive数仓(上)

  (1) 根据业务特点和需求,选型数据仓库架构

  (2) 基于数仓架构和业务处理综合考虑,设计合理的数据仓库分层

  (3) 梳理整体的业务ER图,选择要建设的业务和数据范围

  (4) 确立数仓总线架构,站在较高的抽象业务分析主题

第十二课 从0到1搭建Hive数仓(下)

  (1) 按主题思想设计完整的数据仓库模型

  (2) 根据主题优先级划分,分阶段设计数据流和数据模型

  (3) 数据模型落地:Hive开发->测试>数据验证->上线

  (4) 数仓建设过程中的数据质量和元数据管理


授课时间

本期课程将于02月24日开始。课程持续时间大约为14周。


授课对象

面向有一定的数据库理论和实践经验的同学,如了解过hadoop、Hive相关技术更佳


收获预期

通过系统而全面地学习Hive数据仓库建设知识,并对大量的案例讲解分析,知行合一,帮助学员掌握一般的Hive数据仓库建设方法和能力。


授课讲师

曾臻

具有近十年丰富的大型互联网公司的从业经历,专注于分布式数据仓库的架构和研发经验。


点击下方二维码或阅读原文报名课程:


以上是关于《企业Hive数据仓库的搭建之路》互联网行业从业十年的大拿,全程案例式教学的主要内容,如果未能解决你的问题,请参考以下文章

干货达观数据分析平台架构和Hive实践

区块链创新之路,该何去何从?

金融行业实时数据仓库建模和数据存储等难点解读

Hive数据仓库实践

大数据下的企业数据仓库建设

Hive企业级性能优化