视频干货分析实战|10-Impala性能调优

Posted 2021-04-24 碧茂大数据

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了视频干货分析实战|10-Impala性能调优相关的知识，希望对你有一定的参考价值。

数云大数据

bigdatafamily

机构介绍：

大数据之家（Big Data Family）是国内领先致力于大数据技术传播、普及的领航者，同时也是湖南首家大数据教育培训基地的奠基者，专注于大数据培训及咨询服务。企业立足于长沙，辐射全中国！

课程大纲：

简介

- 关于该课程

- 关于 Cloudera

- 课程的逻辑介绍

Hadoop 基础

- Hadoop的动机

- Hadoop 概况

- HDFS

- MapReduce

- Hadoop 生态圈

- 实验场景介绍

- 实验: 用Hadoop工具导入数据

Pig简介

- 什么是 Pig?

- Pig的特性

- Pig使用案例

- 和Pig交互

用Pig进行基本数据分析

- Pig Latin 语法

- 数据装载

- 简单数据类型

- Field 定义

- 数据输出

- 表结构视图

- 数据过滤和排序

- 常用功能

- 实验: 用Pig 执行ETL流程

Pig处理复杂数据

- 存储格式

- 复杂/Nested嵌套的数据类型

- 成群

- 处理复杂数据的内置功能

- 迭代成群的数据

- 实验: 用Pig分析广告战役的数据

Pig的多数据组操作

- 集成多数据组的技术

- Pig链接多数据组

- 组操作

- 数据组分裂

- 实验: 用Pig分析离散的数据组

Pig 故障排查和优化

- Pig故障排查

- 记录日志

- 使用Hadoop Web 界面

- 演示: 用Web 界面排查一个故障的任务

- Data 采样和故障排查

- 性能简介

- 理解执行计划（Execution Plan）

- 提高你Pig任务性能的窍门

Hive和Impala的基本查询

- 数据库和表

- HiveQL 和Impala SQL基本语法

- 数据类型

- HiveQL和Impala SQL的不同点

- 使用Hue执行查询

- 使用Impala shell

- 使用Beeline

Hive和Impala的关系数据分析

- Hive 数据库和表

- 基本HiveQL 语法

- 数据类型

- 链接数据组

- 通用内建功能

- 实验: 在Shell, 脚本和Hue上运行Hive查询

管理Impala和hive数据

- 数据存储

- 创建数据库和表

- 装载数据

- 改变数据库和表

- 使用视图简化查询

- 存储查询结果

Impala和hive数据存储和性能优化

- 分区表

- 选择文件格式

- HCatalog元数据管理

- 控制对数据的访问

基于Impala和hive的关系型数据分析

- 连接数据集

- 常用内置函数

- 聚合和窗口

Hive 优化

- 理解查询性能

- 控制任务执行计划

- 分区

- Bucketing

- 索引数据

使用Impala

- 如何执行Impala查询

- Impala性能优化

- 使用用户自定义函数扩展Impala

Hive分析文本和复杂的数据

- Hive的复杂数据类型

- Hive中使用正则表达式

- 情感分析和n-grams

Hive优化

- 理解查询性能

- 控制作业执行

- 桶

- 索引数据

扩展Hive

- SerDes

- 自定义脚本实现数据转换

- 用户自定义函数

- 带参数的查询

为任务选择最优的工具

- 对比 MapReduce, Pig, Hive, Impala和关

- 系数据库

- 选择哪个?

关注“数云大数据”，更多干货，客官自取勿谢！

数据驱动云领未来 www.bigdatafamily.com

以上是关于视频干货分析实战|10-Impala性能调优的主要内容，如果未能解决你的问题，请参考以下文章

UIKit性能调优实战讲解

Elasticsearch 性能调优指南——推荐实战 DSL

优化技术专题「系统性能调优实战」终极关注应用系统性能调优及原理剖析（下册）

Hive性能调优实战分享

干货|eBay的Elasticsearch性能调优实践（上）

jvm性能调优实战 - 61常用的JVM调优网站