大数据框架总结

Posted 2023-02-19 _TIM_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据框架总结相关的知识，希望对你有一定的参考价值。

Kafka Eagle

这是一款Kafka监控工具，Kafka Eagle主要是有几个我们关注的点：

流量，最长可以查看最近七天的流量波动图
lag size邮件告警
可以用Kafka Sql分析

课程框架总结

Zookeeper 分布式服务协调框架，帮助其他节点正常运行

永久节点： 普通永久节点、序列化永久节点
临时节点(客户端一旦断开节点消失)： 普通临时节点、序列化临时节点
Watch机制 类似于监听器

Hdfs 分布式文件存储

NameNode 主节点：用于管理元数据
fsimage 一份完整的元数据信息
edits 最近一段时间客户端的操作日志
SecondaryNode 合并fsimage和edits
DataNode 数据存储，议block块128M进行存储

写入数据过程

客户端请求Namenode上传数据
NameNode检验客户端是否有权限，文件是否存在，校验通过，直接告诉客户端允许上传
客户端请求NameNode第一个文件Block块地址
NameNode寻找对应客户端地址返回给客户端：采用就近原则，寻找心跳比较活跃，磁盘比较空闲的
客户端与对应的DataNode进行通信，将数据写入到DataNode对应的Block块里面去，数据以Packet为单位进行传输，默认为64KB，DataNode反向进行数据校验

MapReduce

记住八个步骤

Yarn资源调度管理平台

FIFO 先进先出
Fair Schedular 公平调度 Apache使用
Capacity Schedular 容量调度器 cdh使用，不同用户提交作业到不同的队列里面，实现资源隔离

Hive
面向数据分析，将原数据存储在mysql中

外部表：外部表删除的时候不会删除Hdfs数据
内部表：删除的时候会删除Hdfs数据
分区表：分文件夹 partition by
分桶表：分文件 cluster by into buckets

Hive调优

Map端Join
合并小文件
控制Map和Reduce的个数
表的优化
本地模式
推测执行

Flume数据采集工具

离线分析：把数据存储到Hdfs上面去
实时分析：把数据发送到Kafka上面去

Sqoop数据导入导出工具

增量数据、减量数据、更新数据怎么解决：拉链表

Azkaban\\Oozie

任务调度工具

Kafka消息队列
用于实时处理场景，作用：

解耦
异步
并行

核心概念 producer、consumer、topic、partition、segement、.log.index

各个软件框架之间的依赖关系

Zookeeper：依赖jdk
Hadoop: 依赖zk
Hive: 依赖hadoop和Mysql
flume、sqoop、azkaban: 无依赖
impala: 依赖Hive，必须启动Hive Metastore服务

以上是关于大数据框架总结的主要内容，如果未能解决你的问题，请参考以下文章

大数据框架总结

大数据技术核心框架最强知识体系总结||（2021版）（含面试题）

打怪升级之小白的大数据之旅(五十二)＜MapReduce框架总结与扩展知识点＞

Java漏洞大汇总—各大框架漏洞总结及注入使用方法

大数据干货系列--MapReduce总结

大数据超详细大数据常用框架集群搭建合集 | 附带详细安装过程