大数据面试题
Posted zk753159
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据面试题相关的知识,希望对你有一定的参考价值。
1、介绍一下Hadoop的框架
存储hdfs,计算框架MapReduce,资源管理Yarn
2、简单说下HDFS的读写流程
a、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息,因为真正的block是存在Datanode节点上的,而
namenode里存放block位置信息的元数据。
b、Namenode返回所有block的位置信息,并将这些信息返回给客户端。
c、客户端拿到block的位置信息后调用FSDataInputStream API的read方法并行的读取block信息,block默认是3个副本,所以每个block只需要取一个副本就可以了。
d、datanode返回给客户端。
3、介绍下HDFS中实现数据容错的方式/机制
a、每个数据块3个副本,分布在不同的机架上
b、DataNode定期向NameNode发送心跳
4、介绍一下Yarn的框架结构
5、介绍一下Yarn框架中的Job调度方式
6、说明一下MapReduce的框架结构
7、简单说明一下MapReduce中的Shuffle过程
8、MapReduce的容错机制是如何实现的
9、MapReduce的二次排序机制是什么?
10、HDFS启动流程
11、MapReduce的生命周期/MapReduce的提交执行流程
以上是关于大数据面试题的主要内容,如果未能解决你的问题,请参考以下文章