大数据开发技术期末押题（暨考试题）

Posted 2022-01-18 ZSYL

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据开发技术期末押题（暨考试题）相关的知识，希望对你有一定的参考价值。

【大数据开发技术】期末押题

A卷

A卷

选择10道

1. 配置Hadoop时，JAVA_HOME包含在哪一个配置文件中。

hadoop-env.sh

2. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是哪些？

一次写入，多次读

3. 下列哪个程序通常与NameNode 在同一个节点启动？

Jobtracker

4. 更改NameNode访问地址的配置文件是哪个?

core-site.xml

5. 格式化HDFS的命令是哪个？

hdfs namenode -format 
hadoop namenode -format

6. 一个block是多少字节？对于指定大小的文件，按照这个大小，能够创建多少块。

128MB

7. NameNode的端口号是多少？

core-site.xml的配置:

8020端口：是默认rpc的端口号，一般用于IDE远程使用Hadoop集群，是程序和程序之间的连接。
9000端口：是HDFS默认的端口号，提供文件系统的端口供client角色寻找namenode角色的端口号，是进程之间的调用。
50070端口：namenode提供给人类使用Web访问的端口号，是人类和程序之间的端口号。

8. 下列哪个程序通常与NameNode在一个节点启动？

Jobtracker

9. 哪个部件通常是集群的最主要瓶颈。

磁盘

10. HBase采用哪种结构作为底层数据存储？

HDFS

押题：

HBase系统基本架构中主服务器Master的作用是()

A.包含访问HBase的接口，同时在缓存中维护着已经访问过的Region位置信息，以加快后续的数据访问过程
B.可以帮助选举出一个Master作为集群的总管，并保证在任何时刻总有唯—一个Master在运行
C.主要负责表和Region的管理工作
D.是 HBase中最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求

填空10道

1. 在Hadoop项目结构中，MapReduce指的是什么？

分布式并行编程模型

分布式编程模型和计算框架，解决分布式门槛高的问题，基于其框架对分布式计算的抽象map和reduce，可以实现分布式计算程序

2. Hadoop的核心是由什么哪些组件组成？

核心（基础）组件: ["HDFS","MapReduce","yarn"]

3. 数据分片是由哪个函数完成的？

getSplit()

4. HBase 的客户端并不依赖Master,而是通过什么结构来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。

Zookeeper

5. HBase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的哪种结构的位置信息,用来加快后续数据访问过程。

region

6. 一个基本的Hadoop集群中的节点主要包括哪些进程？

JobTracker:协调数据计算任务;
NameNode:总管家,负责要管理各种元数据并提供服务;
TaskTracker:负责执行由JobTracker指派的任务;
DataNode:存储被拆分的数据块

1)NameNode它是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问,保存有metadate。
2)SecondaryNameNode它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。帮助NN合并editslog,减少NN启动时间。
3)DataNode它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个datanode守护进程。
4)ResourceManager(JobTracker)JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker,它们执行实际工作。
5)NodeManager(TaskTracker)执行任务 6)DFSZKFailoverController高可用时它负责监控NN的状态,并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利,因为最多只有两个节点,目前选择策略还比较简单(先到先得,轮换)。
7)JournalNode 高可用情况下存放namenode的editlog文件.

7. 运行HDFS程序之前,需要先初始化什么对象，该对象的主要作用是读取HDFS的什么信息，也就是安装Hadoop时候的什么文件。

NameNode，元数据，hdfs-site.xml

8. 一个MapReduce任务主要包括哪两部分？

数量：多个Map任务，多个Reduce任务

主要包括两部分：Map任务和Reduce任务.

(1) Map任务服务对数据的获取、分割与处理，其核心执行方法为map()方法。

(2) Reduce任务负责对Map任务的结果进行汇总，其核心执行方法为reduce()方法。

9. MapReduce编程模型，键值对<key,value>的key必须实现什么接口？

WritableComparable

10. HBASE是一个疏松的、分布式的、已排序的多维度持久化的什么数据库？

面向列的分布式数据库

判断5道

1. Hadoop处理平台能够完成在线处理吗？

不能

2. 伪分布式Hadoop是指在一台主机上通过虚拟机配置的集群模式？

对

3. Hadoop 支持数据的随机读写吗？

 不支持

4. MapReduce计算过程中，相同的key默认会被发送到同一个reduce task处理吗？

对

5. HBase对于空（NULL）的列，需要占用存储空间吗？

不需要

简答5道

1. 如何实现服务器之间的免密登录？

ssh-keygen –t rsa
ssh-copy-id localhost

2. HDFS读数据流程？

业务应用调用HDFS Client提供的 API打开文件。
HDFS Client联系NameNode, 获取到文件信息(数据块、DataNode 位置信息)。
业务应用调用read API读取文件。
HDFS Client根据从NameNode 获取到的信息,联系DataNode, 获取相应的数据块。(Client采用就近原则读取数据)。
HDFS Client会与多个DataNode通讯获取数据块。
数据读取完成后,业务调用close关闭连接。

3. Mapreduce中，Partitioner操作的作用？

4. Hadoop怎么样实现二级排序？

5. Hadoop集群中Hadoop需要启动哪些进程，它们的作用分别是什么?

B卷

互联模式属于Hadoop 可以运行的模式吗？

错

与HDFS类似的框架是哪些?

GFS

HDFS 中的 block 默认保存几份？

3份

MapReduce程序只能用java语言编写

错

Hadoop平台中执行一个job，如果这个job的输出路径已经存在，那么程序会怎样？

抛出一个异常，然后退出

哪个HDFS命令可用于检测数据块的完整性?

hdfs fsck /

Hadoop可以处理哪种类型的数据？

结构化  半结构化  非结构化

哪个组件可以指定对key进行Reduce分发的策略？

Partitioner

哪个进程负责 MapReduce 任务调度？

Jobtracker

在Hadoop中定义的主要公用InputFormat中，默认是哪一个？

TextInputFormat

在HDFS中，NameNode的主要功能是什么？

存储元数据(选择题)

Hadoop运行的模式有哪些？

a)单机版
b)伪分布式
c)分布式

Hadoop集群搭建中常用的4个配置文件为哪些？

core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml

HBase架构采用主从(master/slave)方式，由ZooKeeper集群和哪两种类型的节点组成？这种模式类似于HDFS的NameNode与 DataNode。

HMaster节点、HRegionServer节点

在HBase中，Root表是存储什么的表，存储了.META.表在什么上的信息？

根数据

-ROOT-表和.META.表是hbase的元数据表，
在-ROOT-表中保存有.META.表的相关信息，
在.META.表中保存有业务表的region相关信息

Mapreduce操作数据的最小单位是什么？

一个键值对

Hadoop的作者是哪一位？

 Doug cutting

TaskTracker进程负责 MapReduce 任务调度吗？

错（Jobtracker）

MapReduce程序只能用Java语言编写吗？

错

HDFS以流的形式访问文件系统中的数据吗？

对

HDFS既适合超大数据集存储,也适合小数据集的存储吗？

错

HDFS系统采用NameNode定期向DataNode发送心跳消息，用于检测系统是否正常运行吗？

不是  是datanode定期向namenode发送心跳消息

Namenode启动时会自动进入安全模式，在此阶段，文件系统允许有修改吗？

错

HDFS中的写数据流程

业务应用调用HDFS Client提供
的API创建文件,请求写入。
HDFS Client联系NameNode,
NameNode在元数据中创建文件节点。
业务应用调用Write API写入文件。
HDFS Client收到业务数据后,
从NameNode获取到数据块编号、
位置信息后,联系DataNode,并将
需要写入数据的DataNode建立起流
水线。完成后,客户端再通过自有协议写入数据到DataNode1,再由DataNode1复制到DataNode2, DataNode3。
写完的数据,将返回确认信息给HDFS Client。
所有数据确认完成后,业务调用HDFS Client关闭文件。
业务调用close, flush后HDFS Client联系NameNode,确认数据写完成,NameNode持久化元数据。

下面哪个进程负责MapReduce任务调度

Jobtracker

Hadoop怎么样实现二级排序？

使用Mapreduce实现的

Map起始阶段。将输入数据集分割成小数据块，同时InputFormat提供一个RecordReader的实现
Map最后阶段。对Mapper的输出结果进行分区,每个分区设置key比较函数类进行排序
Reduce阶段。接收Map端输出后,设置key比较函数类，对所有数据进行排序

选择10道
选1 配置Hadoop时，JAVA_HOME包含在哪一个配置文件中。
选2 HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是哪些？
选3 下列哪个程序通常与NameNode 在同一个节点启动？
选4 更改NameNode访问地址的配置文件是哪个?
选5 格式化HDFS的命令是哪个？
？   6 一个block是多少字节？对于指定大小的文件，按照这个大小，能够创建多少块。
选7 NameNode的端口号是多少？
选8 下列哪个程序通常与NameNode在一个节点启动？
选9 哪个部件通常是集群的最主要瓶颈。 
选10 HBase采用哪种结构作为底层数据存储？

填空10道
选/填11 在Hadoop项目结构中，MapReduce指的是什么？
填空/多选12 Hadoop的核心是由什么哪些组件组成？
填空13 数据分片是由哪个函数完成的？
填空14 HBase 的客户端并不依赖Master,而是通过什么结构来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。
填空/选择15 HBase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的哪种结构的位置信息,用来加快后续数据访问过程。
填空/多选16 一个基本的Hadoop集群中的节点主要包括哪些进程？
填空？  17 运行HDFS程序之前,需要先初始化什么对象，该对象的主要作用是读取HDFS的什么信息，也就是安装Hadoop时候的什么文件。
填空/选择18  一个MapReduce任务主要包括哪两部分？
填空 19 MapReduce编程模型，键值对<key,value>的key必须实现什么接口？
填空？    20 HBASE是一个疏松的、分布式的、已排序的多维度持久化的什么数据库？

判断5道
判断F21 Hadoop处理平台能够完成在线处理吗？
?    22 伪分布式Hadoop是指在一台主机上通过虚拟机配置的集群模式？
判断F23 Hadoop 支持数据的随机读写吗？
判断T24 MapReduce计算过程中，相同的key默认会被发送到同一个reduce task处理吗？
判断F（不需要）25 HBase对于空（NULL）的列，需要占用存储空间吗？

简答5道
简答/填空（答出两条命令）26 如何实现服务器之间的免密登录？
简答HDFS读数据流程？
简答28 Mapreduce中，Partitioner操作的作用？
简答29 Hadoop怎么样实现二级排序？ 
简答30 Hadoop集群中Hadoop需要启动哪些进程，它们的作用分别是什么?

选择判断F32 互联模式属于Hadoop 可以运行的模式吗？
选择33 与HDFS类似的框架是哪些? 
选择/填空35 HDFS 中的 block 默认保存几份？
选择36 Hadoop平台中执行一个job，如果这个job的输出路径已经存在，那么程序会怎样？
选择/填空37 哪个HDFS命令可用于检测数据块的完整性? 
选择/填空38 Hadoop可以处理哪种类型的数据？
选择/填空39 哪个组件可以指定对key进行Reduce分发的策略？
选择/填空40 哪个进程负责 MapReduce 任务调度？
选择41 在Hadoop中定义的主要公用InputFormat中，默认是哪一个？
选择43 在HDFS中，NameNode的主要功能是什么？
选择45 Hadoop运行的模式有哪些？
选择46 Hadoop集群搭建中常用的4个配置文件为哪些？
选择47 HBase架构采用主从(master/slave)方式，由ZooKeeper集群和哪两种类型的节点组成？这种模式类似于HDFS的NameNode与 DataNode。
简答48 在HBase中，Root表是存储什么的表，存储了.META.表在什么上的信息？
选择/填空49 Mapreduce操作数据的最小单位是什么？
选择/填空61 Hadoop的作者是哪一位？
/选择判断F53 TaskTracker进程负责 MapReduce 任务调度吗？

判断5道
判断F34 MapReduce程序只能用Java语言编写吗？
判断T50 HDFS以流的形式访问文件系统中的数据吗？
判断F51 HDFS既适合超大数据集存储,也适合小数据集的存储吗？
判断F52 HDFS系统采用NameNode定期向DataNode发送心跳消息，用于检测系统是否正常运行吗？
判断F54 Namenode启动时会自动进入安全模式，在此阶段，文件系统允许有修改吗？

简答5道
简答55HDFS中的写数据流程。
简答56 使用start-all.sh命令启动Hadoop时，请给出启动进程名称和各进程启动顺序。
简答57 HDFS里的edit log和fs image作用？
简答58 NameNode与SecondaryNameNode 的区别与联系？
简答59 在CentOS环境下，按照伪分布方式安装和配置Hadoop平台的主要过程。

加油!

感谢!

努力!

以上是关于大数据开发技术期末押题（暨考试题）的主要内容，如果未能解决你的问题，请参考以下文章

数据挖掘期末复习模拟题（暨考试题）

《spark技术应用》课程期末考试大作业报告,使用eclipse完成求top值文件排序二次排序三个程序的个性化开发。

大数据期末考试一篇通 ---10万条音乐专辑的数据分析

数据开发者大会（第4期）暨天津市公共数据资源开放需求征集启动仪式成功举行

数据开发者大会（第4期）暨天津市公共数据资源开放需求征集启动仪式明日举办!

大数据开发技术期末复习（不挂科）