大数据面试题

Posted zk753159

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据面试题相关的知识,希望对你有一定的参考价值。

1、介绍一下Hadoop的框架

存储hdfs,计算框架MapReduce,资源管理Yarn

2、简单说下HDFS的读写流程

a、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息,因为真正的block是存在Datanode节点上的,而

  namenode里存放block位置信息的元数据。

b、Namenode返回所有block的位置信息,并将这些信息返回给客户端。

c、客户端拿到block的位置信息后调用FSDataInputStream  API的read方法并行的读取block信息,block默认是3个副本,所以每个block只需要取一个副本就可以了。

d、datanode返回给客户端。

3、介绍下HDFS中实现数据容错的方式/机制

a、每个数据块3个副本,分布在不同的机架上

b、DataNode定期向NameNode发送心跳

4、介绍一下Yarn的框架结构

5、介绍一下Yarn框架中的Job调度方式

6、说明一下MapReduce的框架结构

7、简单说明一下MapReduce中的Shuffle过程

8、MapReduce的容错机制是如何实现的

9、MapReduce的二次排序机制是什么?

10、HDFS启动流程

11、MapReduce的生命周期/MapReduce的提交执行流程

以上是关于大数据面试题的主要内容,如果未能解决你的问题,请参考以下文章

「面试必备」常见Java面试题大综合 马云见了都点赞

高级前端面试题大汇总(只有试题,没有答案)

java面试题大合集(开发者必看)

C语言面试题大汇总

面试了8家软件公司测试岗位,面试题大盘点,我真的尽力了

java面试题大合集(开发者必看一)