Hadoop管理员核心面试问题全集
Posted 海牛大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop管理员核心面试问题全集相关的知识,希望对你有一定的参考价值。
Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。
最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduce 作业的形式实现和运行程序。
1、解释不同的配置文件以及它们位于何处?
配置文件位于conf子目录。Hadoop有3个不同的配置文件,hdfs-site.xml, core-site.xml 和 mapred-site.xml。
2、要求运行Hadoop集群的进程是什么?
Namenode,DataNode,TaskTracker和JobTracker。
3、你将如何重新启动节点?
最简单的做法是运行停止运行命令shell脚本,即点击stop-all.sh。一旦这样做了,重启NameNode点击start-all.sh。
4、解释在Hadoop上的不同的调度程序?
FIFO调度——调度系统中不考虑系统中的异质性,但命令工作是基于排队达到的时间。
COSHH——这个计划考虑工作量,调度决策的聚类和用户异质性。
公平分享——Hadoop调度为每个用户定义。这个地方包含一个资源地图以及减少资源上的狭缝。每个用户都可以使用自己的资源去执行这个作业。
5、列出几个用于执行复制操作的Hadoop命令?
fs –put
fs –copyToLocal
fs –copyFromLocal
6、什么是指挥用的JPS?
JPS命令用于验证程序,这种程序运行Hadoop集群是否工作。它命令显示输出者的NameNode的现状,Secondary NameNode, DataNode, TaskTracker 和 JobTracker。
7、当Hadoop部署生产环境时,什么重要的硬件因素应该考虑?
基于应用程序的工作服务和管理服务之间的内存系统的内存需求会有所不同。
操作系统——一个64位操作系统,避免了任何限制,可用于在工作节点上的内存量。
存储——最好是通过移动计算活动数据实现可扩展性和高性能的Hadoop平台设计。
容量——大形的因子磁盘(3.5”)磁盘的成本比较低,相比比较小的形式因素磁盘允许存储更多内容。
网络——两个TOR网络交换机提供了较好的冗余。
计算能力可以在Hadoop集群的Mapreduce槽可用的数量节点决定。
8、有多少节点可以运行在一个单一的Hadoop集群?
只有一个。
9、当Hadoop集群上的节点下来会发生什么呢?
文件系统脱机时,Namenode下来了。
10、什么是hadoop-env.sh下的文件和在文件应设置为Hadoop的工作上的变量?
这个文件提供hadoop的运行环境,包括以下variables-hadoop_classpath,java_home和hadoop_log_dir。java_home变量应为Hadoop运行。
11、除了利用JPS的命令还有任何其他什么方法,你可以检查是否它是工作。
使用命令/ etc / init.d/hadoop-0.20-namenode状态。
12、在一个MapReduce系统,如果HDFS块大小为64 MB,有3个文件的大小127mb,64K和65mb与fileinputformat。在这种情况下,有多少输入将很可能是由Hadoop框架组成。
2个分别为127 MB和65 MB的文件或者一个是64KB的文件。
13、该命令是检验HDFS是否被破坏?
hadoop fsck(文件系统检查)命令用于检查丢失块。
14、你怎样让一个Hadoop不工作?
Hadoop的工作–清除工作ID。
15、什么是最好的运行Hadoop操作系统?
Ubuntu和Linux是首选的运行Hadoop的操作系统。虽然Windows操作系统也可以用来运行Hadoop的但它会导致一些问题,所以并不推荐。
16、运行Hadoop的网络要求是什么?
SSH是需要运行启动服务器进程从属节点。
一个密码需要更少的SSH在主人、机器、和所有的苦工之间的连接。
学
习
海牛学院大数据线下培训班招生报名进行中。大数据培训报名、咨询请点击阅读原文。
以上是关于Hadoop管理员核心面试问题全集的主要内容,如果未能解决你的问题,请参考以下文章