hadoop离线day06--Hadoop MapReduceHDFS高阶

Posted 2022-12-13 Vics异地我就

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了hadoop离线day06--Hadoop MapReduceHDFS高阶相关的知识，希望对你有一定的参考价值。

hadoop离线day06--Hadoop MapReduce、HDFS高阶

今日内容大纲

#1.MapReduce 
    数据压缩
    自定义分组
        分组在reduce阶段 前后key比较 相同的在一组 一组去调用一次reduce方法
    join问题
        多个数据之间关联操作
        map端join
        分布式缓存
        reduce端join
    CombineTextInputFormat 处理小文件的类
        默认TextInputFormat  不管多小文件 都是一个切片 都会启动一个maptask
    优化参数
        资源相关的
        容错相关的
        效率稳定性相关的
#2、HDFS 高阶
    namenode元数据管理机制
    secondarynamenode(SNN)职责 checkpoint机制（合并元数据）

#重点  all

Hadoop MapReduce

MapReduce数据压缩机制
- 何谓压缩
```
使用算法对数据文件进行重新编排的过程。使数据变成整体，降低数据size.
追求无损压缩。
```
- 压缩性能指标
  - 压缩时间
  - 压缩比、压缩率
```
压缩率（Compression rate），描述压缩文件的效果名，是文件压缩后的大小与压缩前的大小之比
```
  - 压缩算法是否免费
- MapReduce中使用压缩地方
  - map输出的时候（中间输出压缩）
```
减少map的输出量 降低shuffle时数据量 减少shuffle IO次数
```
  - reduce输出的时候（最终输出压缩）
```
减少reduce的输出量 降低磁盘的存储空间
```
- 压缩的缺点
```
消耗时间
消耗CPU、内存
```
- Hadoop支持压缩算法
  - 推荐使用snappy压缩格式
```
Snappy 是一个 C++ 的用来压缩和解压缩的开发包。其目标不是最大限度压缩或者兼容其他压缩格式，而是旨在提供高速压缩速度和合理的压缩率
```
  - 使用snappy压缩需要在hadoop源码编译的时候集成。
- MapReduce中如何使用压缩
  - 方式1：在代码中使用conf设置影响本程序
  - 方式2：在集群配置文件中mapred-site.xml中设置影响集群上所有mr程序。
- 注意，在当下企业中，直接使用MapReduce编程已经几乎没有了，所有使用MapReduce设置压缩的机会也几乎没有了。但是离线使用Hive进行数据分析，可以设置数据压缩，其底层原理就是今天所讲MapReduce压缩的机制。
Hadoop小文件问题
- 存储角度
  - 文件不管多小，本身都是一个单独的。都需要一条元数据来记录
  - 小文件吃内存情况。
- MapReduce计算角度
  - 文件不管多小本身都是一个切片都需要一个maptask来处理。
  - 浪费性能浪费资源
- 使用CombineTextInputFormat来处理小文件
  - step1: CombineTextInputFormat.setMaxInputSplitSize(job, 4194304); // 4m
  - step2:虚拟存储过程
```
将待处理文件和上述设置的值进行比较

#1、小于等于 保持不变
#2、大于超过2倍  根据4M切分
    大于不超过2倍 等分为2
```
  - step3:判断每一个切片和4M的大小情况如果小于和后面的结合参与计算直到大于4M

MapReduce程序可以没有reduce阶段的

只需要将reducetask个数设置为0即可。
```
job.setNumReduceTasks(0);
```
此时，maptask处理完数据之后就不会进行shuffle了直接输出结果到磁盘中。

关于MapReduce输出结果文件名称

#part-r-000000
    r表示是reducetask输出的文件  
    part表示的就是分区
    00000就是分区的标号

#part-m-000000
    m表示是maptask输出的文件 
    part表示的就是切片
    00000就是切片的标号

MapReduce中join的问题
- 适合处理两份数据之间的关联操作
- 分为map端join（map side join） reduce端join （reduce side join）
- map端join适合大小表数据使用分布式缓存技术将小表数据进行缓存
- 没有shuffle阶段没有reducetask.
- 当下企业实战中没有之间编写MapReduce处理join问题但是后面使用数仓软件Apache hive，需要使用join进行数据处理并且涉及到join优化，其底层的原理就是mapreduce join.

MapReduce 优化参数

MapReduce程序运行是由很多参数支撑的大多数都是以默认的形式默认值存在。
需要进行优化调整的时候用户可以进行重新定义覆盖。
默认的参数在哪里。 xxxx-defult.xml中。
用户设置的参数
- 代码中使用conf.set
- mapred-site.xml 放置工程classpath下也就是resources目录下。
容错 failover
- 所谓的容错指的是容忍错误的发生。说的再直白一点，发生了错误，对程序也没有影响。
- 容错主要可以解决单点故障问题，让问题错误的发送不至于影响正常的执行。
推测执行机制
- 找出拖后腿的task
- 启动备份task 两者同时处理同一份数据
- 谁先处理完谁的结果作为最终结果。
- 企业中建议关闭该机制。

HDFS高阶

namenode元数据

元数据是什么

元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

#记录数据的数据 描述数据的数据

hdfs中元数据指的是什么
- 文件系统的元数据（namespace、块的位置）
- datanodes状态信息（健康、磁盘使用率）

回想首次启动HDFS集群的时候进行format操作
- 本质就是初始化操作初始化namenode工作目录和元数据文件。
- 元数据存储的目录由参数dfs.namenode.name.dir决定在NN部署机器的本地linux文件系统中
```
针对课程环境 最终目录

/export/data/hadoopdata/dfs/name
```
secondarynamenode
- 要想成为namenode的备份需要具备两个东西
  - 数据状态要和namenode保持一致。
  - 承担和namenode一样的职责
- secondarynamenode根本不是namenode的备份，其主要职责帮助nameNode进行元数据的合并。

以上是关于hadoop离线day06--Hadoop MapReduceHDFS高阶的主要内容，如果未能解决你的问题，请参考以下文章