视频干货分析实战|10-Impala性能调优
Posted 碧茂大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了视频干货分析实战|10-Impala性能调优相关的知识,希望对你有一定的参考价值。
数云大数据
bigdatafamily
机构介绍:
大数据之家(Big Data Family)是国内领先致力于大数据技术传播、普及的领航者,同时也是湖南首家大数据教育培训基地的奠基者,专注于大数据培训及咨询服务。企业立足于长沙,辐射全中国!
课程大纲:
简介
- 关于该课程
- 关于 Cloudera
- 课程的逻辑介绍
Hadoop 基础
- Hadoop的动机
- Hadoop 概况
- HDFS
- MapReduce
- Hadoop 生态圈
- 实验场景介绍
- 实验: 用Hadoop工具导入数据
Pig简介
- 什么是 Pig?
- Pig的特性
- Pig使用案例
- 和Pig交互
用Pig进行基本数据分析
- Pig Latin 语法
- 数据装载
- 简单数据类型
- Field 定义
- 数据输出
- 表结构视图
- 数据过滤和排序
- 常用功能
- 实验: 用Pig 执行ETL流程
Pig处理复杂数据
- 存储格式
- 复杂/Nested嵌套的数据类型
- 成群
- 处理复杂数据的内置功能
- 迭代成群的数据
- 实验: 用Pig分析广告战役的数据
Pig的多数据组操作
- 集成多数据组的技术
- Pig链接多数据组
- 组操作
- 数据组分裂
- 实验: 用Pig分析离散的数据组
Pig 故障排查和优化
- Pig故障排查
- 记录日志
- 使用Hadoop Web 界面
- 演示: 用Web 界面排查一个故障的任务
- Data 采样和故障排查
- 性能简介
- 理解执行计划(Execution Plan)
- 提高你Pig任务性能的窍门
Hive和Impala的基本查询
- 数据库和表
- HiveQL 和Impala SQL基本语法
- 数据类型
- HiveQL和Impala SQL的不同点
- 使用Hue执行查询
- 使用Impala shell
- 使用Beeline
Hive和Impala的关系数据分析
- Hive 数据库和表
- 基本HiveQL 语法
- 数据类型
- 链接数据组
- 通用内建功能
- 实验: 在Shell, 脚本和Hue上运行Hive查询
管理Impala和hive数据
- 数据存储
- 创建数据库和表
- 装载数据
- 改变数据库和表
- 使用视图简化查询
- 存储查询结果
Impala和hive数据存储和性能优化
- 分区表
- 选择文件格式
- HCatalog元数据管理
- 控制对数据的访问
基于Impala和hive的关系型数据分析
- 连接数据集
- 常用内置函数
- 聚合和窗口
Hive 优化
- 理解查询性能
- 控制任务执行计划
- 分区
- Bucketing
- 索引数据
使用Impala
- 如何执行Impala查询
- Impala性能优化
- 使用用户自定义函数扩展Impala
Hive分析文本和复杂的数据
- Hive的复杂数据类型
- Hive中使用正则表达式
- 情感分析和n-grams
Hive优化
- 理解查询性能
- 控制作业执行
- 桶
- 索引数据
扩展Hive
- SerDes
- 自定义脚本实现数据转换
- 用户自定义函数
- 带参数的查询
为任务选择最优的工具
- 对比 MapReduce, Pig, Hive, Impala和关
- 系数据库
- 选择哪个?
【大数据之家-湖南大数据培训中心 版权所有】
关注“数云大数据”,更多干货,客官自取勿谢!
数据驱动 云领未来 www.bigdatafamily.com
以上是关于视频干货分析实战|10-Impala性能调优的主要内容,如果未能解决你的问题,请参考以下文章
Elasticsearch 性能调优指南——推荐实战 DSL
优化技术专题「系统性能调优实战」终极关注应用系统性能调优及原理剖析(下册)