大数据开发技术期末押题(暨考试题)

Posted ZSYL

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据开发技术期末押题(暨考试题)相关的知识,希望对你有一定的参考价值。

【大数据开发技术】期末押题

A卷

选择10道

1. 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中。

hadoop-env.sh

2. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是哪些?

一次写入,多次读

3. 下列哪个程序通常与NameNode 在同一个节点启动?

Jobtracker

4. 更改NameNode访问地址的配置文件是哪个?

core-site.xml

5. 格式化HDFS的命令是哪个?

hdfs namenode -format 
hadoop namenode -format

6. 一个block是多少字节?对于指定大小的文件,按照这个大小,能够创建多少块。

128MB

7. NameNode的端口号是多少?

core-site.xml的配置:

  • 8020端口:是默认rpc的端口号,一般用于IDE远程使用Hadoop集群,是程序和程序之间的连接。
  • 9000端口:是HDFS默认的端口号,提供文件系统的端口供client角色寻找namenode角色的端口号,是进程之间的调用。
  • 50070端口:namenode提供给人类使用Web访问的端口号,是人类和程序之间的端口号。

8. 下列哪个程序通常与NameNode在一个节点启动?

Jobtracker

9. 哪个部件通常是集群的最主要瓶颈。

磁盘

10. HBase采用哪种结构作为底层数据存储?

HDFS

押题:

HBase系统基本架构中主服务器Master的作用是()

  • A.包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,以加快后续的数据访问过程
  • B.可以帮助选举出一个Master作为集群的总管,并保证在任何时刻总有唯—一个Master在运行
  • C.主要负责表和Region的管理工作
  • D.是 HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求

填空10道

1. 在Hadoop项目结构中,MapReduce指的是什么?

分布式并行编程模型

分布式编程模型和计算框架,解决分布式门槛高的问题,基于其框架对分布式计算的抽象map和reduce,可以实现分布式计算程序

2. Hadoop的核心是由什么哪些组件组成?

核心(基础)组件: ["HDFS","MapReduce","yarn"]

3. 数据分片是由哪个函数完成的?

getSplit()

4. HBase 的客户端并不依赖Master,而是通过什么结构来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。

Zookeeper

5. HBase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的哪种结构的位置信息,用来加快后续数据访问过程。

region

6. 一个基本的Hadoop集群中的节点主要包括哪些进程?

  • JobTracker:协调数据计算任务;
  • NameNode:总管家,负责要管理各种元数据并提供服务;
  • TaskTracker:负责执行由JobTracker指派的任务;
  • DataNode:存储被拆分的数据块

1)NameNode它是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问,保存有metadate。
2)SecondaryNameNode它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。帮助NN合并editslog,减少NN启动时间。
3)DataNode它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个datanode守护进程。
4)ResourceManager(JobTracker)JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker,它们执行实际工作。
5)NodeManager(TaskTracker)执行任务 6)DFSZKFailoverController高可用时它负责监控NN的状态,并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利,因为最多只有两个节点,目前选择策略还比较简单(先到先得,轮换)。
7)JournalNode 高可用情况下存放namenode的editlog文件.

7. 运行HDFS程序之前,需要先初始化什么对象,该对象的主要作用是读取HDFS的什么信息,也就是安装Hadoop时候的什么文件。

NameNode,元数据,hdfs-site.xml

8. 一个MapReduce任务主要包括哪两部分?

数量:多个Map任务,多个Reduce任务

主要包括两部分:Map任务和Reduce任务.

(1) Map任务服务对数据的获取、分割与处理,其核心执行方法为map()方法。

(2) Reduce任务负责对Map任务的结果进行汇总,其核心执行方法为reduce()方法。

9. MapReduce编程模型,键值对<key,value>的key必须实现什么接口?

WritableComparable

10. HBASE是一个疏松的、分布式的、已排序的多维度持久化的什么数据库?

面向列的分布式数据库

判断5道

1. Hadoop处理平台能够完成在线处理吗?

不能

2. 伪分布式Hadoop是指在一台主机上通过虚拟机配置的集群模式?

3. Hadoop 支持数据的随机读写吗?

 不支持

4. MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理吗?

5. HBase对于空(NULL)的列,需要占用存储空间吗?

不需要

简答5道

1. 如何实现服务器之间的免密登录?

ssh-keygen –t rsa
ssh-copy-id localhost

2. HDFS读数据流程?

  1. 业务应用调用HDFS Client提供的 API打开文件。
  2. HDFS Client联系NameNode, 获取到文件信息(数据块、DataNode 位置信息)。
  3. 业务应用调用read API读取文件。
  4. HDFS Client根据从NameNode 获取到的信息,联系DataNode, 获取相应的数据块。(Client采用就近 原则读取数据)。
  5. HDFS Client会与多个DataNode通讯获取数据块。
  6. 数据读取完成后,业务调用close关闭连接。

3. Mapreduce中,Partitioner操作的作用?

4. Hadoop怎么样实现二级排序?

5. Hadoop集群中Hadoop需要启动哪些进程,它们的作用分别是什么?

B卷

互联模式属于Hadoop 可以运行的模式吗?

与HDFS类似的框架是哪些?

GFS

HDFS 中的 block 默认保存几份?

3

MapReduce程序只能用java语言编写

Hadoop平台中执行一个job,如果这个job的输出路径已经存在,那么程序会怎样?

抛出一个异常,然后退出

哪个HDFS命令可用于检测数据块的完整性?

hdfs fsck /

Hadoop可以处理哪种类型的数据?

结构化  半结构化  非结构化

哪个组件可以指定对key进行Reduce分发的策略?

Partitioner

哪个进程负责 MapReduce 任务调度?

Jobtracker

在Hadoop中定义的主要公用InputFormat中,默认是哪一个?

TextInputFormat

在HDFS中,NameNode的主要功能是什么?

存储元数据(选择题)

Hadoop运行的模式有哪些?

  • a)单机版
  • b)伪分布式
  • c)分布式

Hadoop集群搭建中常用的4个配置文件为哪些?

  • core-site.xml
  • hdfs-site.xml
  • mapred-site.xml
  • yarn-site.xml

HBase架构采用主从(master/slave)方式,由ZooKeeper集群和哪两种类型的节点组成?这种模式类似于HDFS的NameNode与 DataNode。

HMaster节点、HRegionServer节点

在HBase中,Root表是存储什么的表,存储了.META.表在什么上的信息?

根数据
-ROOT-表和.META.表是hbase的元数据表,
在-ROOT-表中保存有.META.表的相关信息,
在.META.表中保存有业务表的region相关信息

Mapreduce操作数据的最小单位是什么?

一个键值对

Hadoop的作者是哪一位?

 Doug cutting 

TaskTracker进程负责 MapReduce 任务调度吗?

错(Jobtracker)

MapReduce程序只能用Java语言编写吗?

HDFS以流的形式访问文件系统中的数据吗?

HDFS既适合超大数据集存储,也适合小数据集的存储吗?

HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行吗?

不是  是datanode定期向namenode发送心跳消息

Namenode启动时会自动进入安全模式,在此阶段,文件系统允许有修改吗?

HDFS中的写数据流程

  1. 业务应用调用HDFS Client提供
    的API创建文件,请求写入。
  2. HDFS Client联系NameNode,
    NameNode在元数据中创建文件节点。
  3. 业务应用调用Write API写入文件。
  4. HDFS Client收到业务数据后,
    从NameNode获取到数据块编号、
    位置信息后,联系DataNode,并将
    需要写入数据的DataNode建立起流
    水线。完成后,客户端再通过自有协议写入数据到DataNode1,再由DataNode1复制到DataNode2, DataNode3。
  5. 写完的数据,将返回确认信息给HDFS Client。
  6. 所有数据确认完成后,业务调用HDFS Client关闭文件。
  7. 业务调用close, flush后HDFS Client联系NameNode,确认数据写完成,NameNode持久化元数据。

下面哪个进程负责MapReduce任务调度

Jobtracker

Hadoop怎么样实现二级排序?

使用Mapreduce实现的

  • Map起始阶段。将输入数据集分割成小数据块,同时InputFormat提供一个RecordReader的实现
  • Map最后阶段。对Mapper的输出结果进行分区,每个分区设置key比较函数类进行排序
  • Reduce阶段。接收Map端输出后,设置key比较函数类,对所有数据进行排序
选择10道
选1 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中。
选2 HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是哪些?
选3 下列哪个程序通常与NameNode 在同一个节点启动?
选4 更改NameNode访问地址的配置文件是哪个?
选5 格式化HDFS的命令是哪个?
?   6 一个block是多少字节?对于指定大小的文件,按照这个大小,能够创建多少块。
选7 NameNode的端口号是多少?
选8 下列哪个程序通常与NameNode在一个节点启动?
选9 哪个部件通常是集群的最主要瓶颈。 
选10 HBase采用哪种结构作为底层数据存储?

填空10道
选/11 在Hadoop项目结构中,MapReduce指的是什么?
填空/多选12 Hadoop的核心是由什么哪些组件组成?
填空13 数据分片是由哪个函数完成的?
填空14 HBase 的客户端并不依赖Master,而是通过什么结构来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。
填空/选择15 HBase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的哪种结构的位置信息,用来加快后续数据访问过程。
填空/多选16 一个基本的Hadoop集群中的节点主要包括哪些进程?
填空?  17 运行HDFS程序之前,需要先初始化什么对象,该对象的主要作用是读取HDFS的什么信息,也就是安装Hadoop时候的什么文件。
填空/选择18  一个MapReduce任务主要包括哪两部分?
填空 19 MapReduce编程模型,键值对<key,value>的key必须实现什么接口?
填空?    20 HBASE是一个疏松的、分布式的、已排序的多维度持久化的什么数据库?

判断5道
判断F21 Hadoop处理平台能够完成在线处理吗?
?    22 伪分布式Hadoop是指在一台主机上通过虚拟机配置的集群模式?
判断F23 Hadoop 支持数据的随机读写吗?
判断T24 MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理吗?
判断F(不需要)25 HBase对于空(NULL)的列,需要占用存储空间吗?

简答5道
简答/填空(答出两条命令)26 如何实现服务器之间的免密登录?
简答HDFS读数据流程?
简答28 Mapreduce中,Partitioner操作的作用?
简答29 Hadoop怎么样实现二级排序? 
简答30 Hadoop集群中Hadoop需要启动哪些进程,它们的作用分别是什么?

选择判断F32 互联模式属于Hadoop 可以运行的模式吗?
选择33 与HDFS类似的框架是哪些? 
选择/填空35 HDFS 中的 block 默认保存几份?
选择36 Hadoop平台中执行一个job,如果这个job的输出路径已经存在,那么程序会怎样?
选择/填空37 哪个HDFS命令可用于检测数据块的完整性? 
选择/填空38 Hadoop可以处理哪种类型的数据?
选择/填空39 哪个组件可以指定对key进行Reduce分发的策略?
选择/填空40 哪个进程负责 MapReduce 任务调度?
选择41 在Hadoop中定义的主要公用InputFormat中,默认是哪一个?
选择43 在HDFS中,NameNode的主要功能是什么?
选择45 Hadoop运行的模式有哪些?
选择46 Hadoop集群搭建中常用的4个配置文件为哪些?
选择47 HBase架构采用主从(master/slave)方式,由ZooKeeper集群和哪两种类型的节点组成?这种模式类似于HDFS的NameNode与 DataNode。
简答48 在HBase中,Root表是存储什么的表,存储了.META.表在什么上的信息?
选择/填空49 Mapreduce操作数据的最小单位是什么?
选择/填空61 Hadoop的作者是哪一位?
/选择判断F53 TaskTracker进程负责 MapReduce 任务调度吗?

判断5道
判断F34 MapReduce程序只能用Java语言编写吗?
判断T50 HDFS以流的形式访问文件系统中的数据吗?
判断F51 HDFS既适合超大数据集存储,也适合小数据集的存储吗?
判断F52 HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行吗?
判断F54 Namenode启动时会自动进入安全模式,在此阶段,文件系统允许有修改吗?

简答5道
简答55HDFS中的写数据流程。
简答56 使用start-all.sh命令启动Hadoop时,请给出启动进程名称和各进程启动顺序。
简答57 HDFS里的edit log和fs image作用?
简答58 NameNode与SecondaryNameNode 的区别与联系?
简答59 在CentOS环境下,按照伪分布方式安装和配置Hadoop平台的主要过程。 


加油!

感谢!

努力!

以上是关于大数据开发技术期末押题(暨考试题)的主要内容,如果未能解决你的问题,请参考以下文章

数据挖掘期末复习模拟题(暨考试题)

《spark技术应用》课程期末考试大作业报告,使用eclipse完成求top值文件排序二次排序三个程序的个性化开发。

大数据期末考试一篇通 ---10万条音乐专辑的数据分析

数据开发者大会(第4期)暨天津市公共数据资源开放需求征集启动仪式成功举行

数据开发者大会(第4期)暨天津市公共数据资源开放需求征集启动仪式明日举办!

大数据开发技术期末复习(不挂科)