大数据框架总结

Posted 2021-07-08 _TIM_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据框架总结相关的知识，希望对你有一定的参考价值。

这是一款Kafka监控工具，Kafka Eagle主要是有几个我们关注的点：

Zookeeper 分布式服务协调框架，帮助其他节点正常运行

Hdfs 分布式文件存储

写入数据过程

客户端请求Namenode上传数据
NameNode检验客户端是否有权限，文件是否存在，校验通过，直接告诉客户端允许上传
客户端请求NameNode第一个文件Block块地址
NameNode寻找对应客户端地址返回给客户端：采用就近原则，寻找心跳比较活跃，磁盘比较空闲的
客户端与对应的DataNode进行通信，将数据写入到DataNode对应的Block块里面去，数据以Packet为单位进行传输，默认为64KB，DataNode反向进行数据校验

MapReduce

Yarn资源调度管理平台

Hive
面向数据分析，将原数据存储在mysql中

Hive调优

Flume数据采集工具

Sqoop数据导入导出工具

Azkaban\\Oozie

Kafka消息队列
用于实时处理场景，作用：

核心概念 producer、consumer、topic、partition、segement、.log.index

Zookeeper：依赖jdk
Hadoop: 依赖zk
Hive: 依赖hadoop和Mysql
flume、sqoop、azkaban: 无依赖
impala: 依赖Hive，必须启动Hive Metastore服务

以上是关于大数据框架总结的主要内容，如果未能解决你的问题，请参考以下文章