大数据框架总结
Posted _TIM_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据框架总结相关的知识,希望对你有一定的参考价值。
Kafka Eagle
这是一款Kafka
监控工具,Kafka Eagle
主要是有几个我们关注的点:
- 流量,最长可以查看最近七天的流量波动图
lag size
邮件告警- 可以用
Kafka Sql
分析
课程框架总结
Zookeeper 分布式服务协调框架,帮助其他节点正常运行
- 永久节点: 普通永久节点、序列化永久节点
- 临时节点(客户端一旦断开节点消失): 普通临时节点、序列化临时节点
- Watch机制 类似于监听器
Hdfs 分布式文件存储
- NameNode 主节点:用于管理元数据
- fsimage 一份完整的元数据信息
- edits 最近一段时间客户端的操作日志
- SecondaryNode 合并
fsimage
和edits
- DataNode 数据存储,议block块128M进行存储
写入数据过程
- 客户端请求
Namenode
上传数据 NameNode
检验客户端是否有权限,文件是否存在,校验通过,直接告诉客户端允许上传- 客户端请求
NameNode
第一个文件Block
块地址 NameNode
寻找对应客户端地址返回给客户端:采用就近原则,寻找心跳比较活跃,磁盘比较空闲的- 客户端与对应的
DataNode
进行通信,将数据写入到DataNode
对应的Block
块里面去,数据以Packet
为单位进行传输,默认为64KB
,DataNode
反向进行数据校验
MapReduce
- 记住八个步骤
Yarn资源调度管理平台
FIFO
先进先出Fair Schedular
公平调度Apache
使用Capacity Schedular
容量调度器cdh
使用,不同用户提交作业到不同的队列里面,实现资源隔离
Hive
面向数据分析,将原数据存储在mysql
中
- 外部表:外部表删除的时候不会删除
Hdfs
数据 - 内部表:删除的时候会删除Hdfs数据
- 分区表:分文件夹
partition by
- 分桶表:分文件
cluster by into buckets
Hive调优
Map
端Join
- 合并小文件
- 控制
Map
和Reduce
的个数 - 表的优化
- 本地模式
- 推测执行
Flume数据采集工具
- 离线分析:把数据存储到
Hdfs
上面去 - 实时分析:把数据发送到
Kafka
上面去
Sqoop数据导入导出工具
- 增量数据、减量数据、更新数据怎么解决:拉链表
Azkaban\\Oozie
- 任务调度工具
Kafka消息队列
用于实时处理场景,作用:
- 解耦
- 异步
- 并行
核心概念 producer、consumer、topic、partition、segement、.log.index
各个软件框架之间的依赖关系
Zookeeper
:依赖jdk
Hadoop
: 依赖zk
Hive
: 依赖hadoop
和Mysql
flume
、sqoop
、azkaban
: 无依赖
impala
: 依赖Hive
,必须启动Hive Metastore
服务
以上是关于大数据框架总结的主要内容,如果未能解决你的问题,请参考以下文章