大数据开发技术期末押题(暨考试题)
Posted ZSYL
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据开发技术期末押题(暨考试题)相关的知识,希望对你有一定的参考价值。
【大数据开发技术】期末押题
- A卷
- 选择10道
- 1. 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中。
- 2. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是哪些?
- 3. 下列哪个程序通常与NameNode 在同一个节点启动?
- 4. 更改NameNode访问地址的配置文件是哪个?
- 5. 格式化HDFS的命令是哪个?
- 6. 一个block是多少字节?对于指定大小的文件,按照这个大小,能够创建多少块。
- 7. NameNode的端口号是多少?
- 8. 下列哪个程序通常与NameNode在一个节点启动?
- 9. 哪个部件通常是集群的最主要瓶颈。
- 10. HBase采用哪种结构作为底层数据存储?
- 填空10道
- 1. 在Hadoop项目结构中,MapReduce指的是什么?
- 2. Hadoop的核心是由什么哪些组件组成?
- 3. 数据分片是由哪个函数完成的?
- 4. HBase 的客户端并不依赖Master,而是通过什么结构来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。
- 5. HBase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的哪种结构的位置信息,用来加快后续数据访问过程。
- 6. 一个基本的Hadoop集群中的节点主要包括哪些进程?
- 7. 运行HDFS程序之前,需要先初始化什么对象,该对象的主要作用是读取HDFS的什么信息,也就是安装Hadoop时候的什么文件。
- 8. 一个MapReduce任务主要包括哪两部分?
- 9. MapReduce编程模型,键值对
A卷
选择10道
1. 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中。
hadoop-env.sh
2. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是哪些?
一次写入,多次读
3. 下列哪个程序通常与NameNode 在同一个节点启动?
Jobtracker
4. 更改NameNode访问地址的配置文件是哪个?
core-site.xml
5. 格式化HDFS的命令是哪个?
hdfs namenode -format
hadoop namenode -format
6. 一个block是多少字节?对于指定大小的文件,按照这个大小,能够创建多少块。
128MB
7. NameNode的端口号是多少?
core-site.xml
的配置:
- 8020端口:是默认rpc的端口号,一般用于IDE远程使用Hadoop集群,是程序和程序之间的连接。
- 9000端口:是HDFS默认的端口号,提供文件系统的端口供client角色寻找namenode角色的端口号,是进程之间的调用。
- 50070端口:namenode提供给人类使用Web访问的端口号,是人类和程序之间的端口号。
8. 下列哪个程序通常与NameNode在一个节点启动?
Jobtracker
9. 哪个部件通常是集群的最主要瓶颈。
磁盘
10. HBase采用哪种结构作为底层数据存储?
HDFS
押题:
HBase系统基本架构中主服务器Master的作用是()
- A.包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,以加快后续的数据访问过程
- B.可以帮助选举出一个Master作为集群的总管,并保证在任何时刻总有唯—一个Master在运行
- C.主要负责表和Region的管理工作
- D.是 HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求
填空10道
1. 在Hadoop项目结构中,MapReduce指的是什么?
分布式并行编程模型
分布式编程模型和计算框架,解决分布式门槛高的问题,基于其框架对分布式计算的抽象map和reduce,可以实现分布式计算程序
2. Hadoop的核心是由什么哪些组件组成?
核心(基础)组件: ["HDFS","MapReduce","yarn"]
3. 数据分片是由哪个函数完成的?
getSplit()
4. HBase 的客户端并不依赖Master,而是通过什么结构来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。
Zookeeper
5. HBase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的哪种结构的位置信息,用来加快后续数据访问过程。
region
6. 一个基本的Hadoop集群中的节点主要包括哪些进程?
- JobTracker:协调数据计算任务;
- NameNode:总管家,负责要管理各种元数据并提供服务;
- TaskTracker:负责执行由JobTracker指派的任务;
- DataNode:存储被拆分的数据块
1)NameNode它是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问,保存有metadate。
2)SecondaryNameNode它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。帮助NN合并editslog,减少NN启动时间。
3)DataNode它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个datanode守护进程。
4)ResourceManager(JobTracker)JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker,它们执行实际工作。
5)NodeManager(TaskTracker)执行任务 6)DFSZKFailoverController高可用时它负责监控NN的状态,并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利,因为最多只有两个节点,目前选择策略还比较简单(先到先得,轮换)。
7)JournalNode 高可用情况下存放namenode的editlog文件.
7. 运行HDFS程序之前,需要先初始化什么对象,该对象的主要作用是读取HDFS的什么信息,也就是安装Hadoop时候的什么文件。
NameNode,元数据,hdfs-site.xml
8. 一个MapReduce任务主要包括哪两部分?
数量:多个Map任务,多个Reduce任务
主要包括两部分:Map任务和Reduce任务.
(1) Map任务服务对数据的获取、分割与处理,其核心执行方法为map()方法。
(2) Reduce任务负责对Map任务的结果进行汇总,其核心执行方法为reduce()方法。
9. MapReduce编程模型,键值对<key,value>的key必须实现什么接口?
WritableComparable
10. HBASE是一个疏松的、分布式的、已排序的多维度持久化的什么数据库?
面向列的分布式数据库
判断5道
1. Hadoop处理平台能够完成在线处理吗?
不能
2. 伪分布式Hadoop是指在一台主机上通过虚拟机配置的集群模式?
对
3. Hadoop 支持数据的随机读写吗?
不支持
4. MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理吗?
对
5. HBase对于空(NULL)的列,需要占用存储空间吗?
不需要
简答5道
1. 如何实现服务器之间的免密登录?
ssh-keygen –t rsa
ssh-copy-id localhost
2. HDFS读数据流程?
- 业务应用调用HDFS Client提供的 API打开文件。
- HDFS Client联系NameNode, 获取到文件信息(数据块、DataNode 位置信息)。
- 业务应用调用read API读取文件。
- HDFS Client根据从NameNode 获取到的信息,联系DataNode, 获取相应的数据块。(Client采用就近 原则读取数据)。
- HDFS Client会与多个DataNode通讯获取数据块。
- 数据读取完成后,业务调用close关闭连接。
3. Mapreduce中,Partitioner操作的作用?
4. Hadoop怎么样实现二级排序?
5. Hadoop集群中Hadoop需要启动哪些进程,它们的作用分别是什么?
B卷
互联模式属于Hadoop 可以运行的模式吗?
错
与HDFS类似的框架是哪些?
GFS
HDFS 中的 block 默认保存几份?
3份
MapReduce程序只能用java语言编写
错
Hadoop平台中执行一个job,如果这个job的输出路径已经存在,那么程序会怎样?
抛出一个异常,然后退出
哪个HDFS命令可用于检测数据块的完整性?
hdfs fsck /
Hadoop可以处理哪种类型的数据?
结构化 半结构化 非结构化
哪个组件可以指定对key进行Reduce分发的策略?
Partitioner
哪个进程负责 MapReduce 任务调度?
Jobtracker
在Hadoop中定义的主要公用InputFormat中,默认是哪一个?
TextInputFormat
在HDFS中,NameNode的主要功能是什么?
存储元数据(选择题)
Hadoop运行的模式有哪些?
- a)单机版
- b)伪分布式
- c)分布式
Hadoop集群搭建中常用的4个配置文件为哪些?
- core-site.xml
- hdfs-site.xml
- mapred-site.xml
- yarn-site.xml
HBase架构采用主从(master/slave)方式,由ZooKeeper集群和哪两种类型的节点组成?这种模式类似于HDFS的NameNode与 DataNode。
HMaster节点、HRegionServer节点
在HBase中,Root表是存储什么的表,存储了.META.表在什么上的信息?
根数据
-ROOT-表和.META.表是hbase的元数据表,
在-ROOT-表中保存有.META.表的相关信息,
在.META.表中保存有业务表的region相关信息
Mapreduce操作数据的最小单位是什么?
一个键值对
Hadoop的作者是哪一位?
Doug cutting
TaskTracker进程负责 MapReduce 任务调度吗?
错(Jobtracker)
MapReduce程序只能用Java语言编写吗?
错
HDFS以流的形式访问文件系统中的数据吗?
对
HDFS既适合超大数据集存储,也适合小数据集的存储吗?
错
HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行吗?
不是 是datanode定期向namenode发送心跳消息
Namenode启动时会自动进入安全模式,在此阶段,文件系统允许有修改吗?
错
HDFS中的写数据流程
- 业务应用调用HDFS Client提供
的API创建文件,请求写入。 - HDFS Client联系NameNode,
NameNode在元数据中创建文件节点。 - 业务应用调用Write API写入文件。
- HDFS Client收到业务数据后,
从NameNode获取到数据块编号、
位置信息后,联系DataNode,并将
需要写入数据的DataNode建立起流
水线。完成后,客户端再通过自有协议写入数据到DataNode1,再由DataNode1复制到DataNode2, DataNode3。 - 写完的数据,将返回确认信息给HDFS Client。
- 所有数据确认完成后,业务调用HDFS Client关闭文件。
- 业务调用close, flush后HDFS Client联系NameNode,确认数据写完成,NameNode持久化元数据。
下面哪个进程负责MapReduce任务调度
Jobtracker
Hadoop怎么样实现二级排序?
使用Mapreduce实现的
- Map起始阶段。将输入数据集分割成小数据块,同时InputFormat提供一个RecordReader的实现
- Map最后阶段。对Mapper的输出结果进行分区,每个分区设置key比较函数类进行排序
- Reduce阶段。接收Map端输出后,设置key比较函数类,对所有数据进行排序
选择10道
选1 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中。
选2 HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是哪些?
选3 下列哪个程序通常与NameNode 在同一个节点启动?
选4 更改NameNode访问地址的配置文件是哪个?
选5 格式化HDFS的命令是哪个?
? 6 一个block是多少字节?对于指定大小的文件,按照这个大小,能够创建多少块。
选7 NameNode的端口号是多少?
选8 下列哪个程序通常与NameNode在一个节点启动?
选9 哪个部件通常是集群的最主要瓶颈。
选10 HBase采用哪种结构作为底层数据存储?
填空10道
选/填11 在Hadoop项目结构中,MapReduce指的是什么?
填空/多选12 Hadoop的核心是由什么哪些组件组成?
填空13 数据分片是由哪个函数完成的?
填空14 HBase 的客户端并不依赖Master,而是通过什么结构来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。
填空/选择15 HBase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的哪种结构的位置信息,用来加快后续数据访问过程。
填空/多选16 一个基本的Hadoop集群中的节点主要包括哪些进程?
填空? 17 运行HDFS程序之前,需要先初始化什么对象,该对象的主要作用是读取HDFS的什么信息,也就是安装Hadoop时候的什么文件。
填空/选择18 一个MapReduce任务主要包括哪两部分?
填空 19 MapReduce编程模型,键值对<key,value>的key必须实现什么接口?
填空? 20 HBASE是一个疏松的、分布式的、已排序的多维度持久化的什么数据库?
判断5道
判断F21 Hadoop处理平台能够完成在线处理吗?
? 22 伪分布式Hadoop是指在一台主机上通过虚拟机配置的集群模式?
判断F23 Hadoop 支持数据的随机读写吗?
判断T24 MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理吗?
判断F(不需要)25 HBase对于空(NULL)的列,需要占用存储空间吗?
简答5道
简答/填空(答出两条命令)26 如何实现服务器之间的免密登录?
简答HDFS读数据流程?
简答28 Mapreduce中,Partitioner操作的作用?
简答29 Hadoop怎么样实现二级排序?
简答30 Hadoop集群中Hadoop需要启动哪些进程,它们的作用分别是什么?
选择判断F32 互联模式属于Hadoop 可以运行的模式吗?
选择33 与HDFS类似的框架是哪些?
选择/填空35 HDFS 中的 block 默认保存几份?
选择36 Hadoop平台中执行一个job,如果这个job的输出路径已经存在,那么程序会怎样?
选择/填空37 哪个HDFS命令可用于检测数据块的完整性?
选择/填空38 Hadoop可以处理哪种类型的数据?
选择/填空39 哪个组件可以指定对key进行Reduce分发的策略?
选择/填空40 哪个进程负责 MapReduce 任务调度?
选择41 在Hadoop中定义的主要公用InputFormat中,默认是哪一个?
选择43 在HDFS中,NameNode的主要功能是什么?
选择45 Hadoop运行的模式有哪些?
选择46 Hadoop集群搭建中常用的4个配置文件为哪些?
选择47 HBase架构采用主从(master/slave)方式,由ZooKeeper集群和哪两种类型的节点组成?这种模式类似于HDFS的NameNode与 DataNode。
简答48 在HBase中,Root表是存储什么的表,存储了.META.表在什么上的信息?
选择/填空49 Mapreduce操作数据的最小单位是什么?
选择/填空61 Hadoop的作者是哪一位?
/选择判断F53 TaskTracker进程负责 MapReduce 任务调度吗?
判断5道
判断F34 MapReduce程序只能用Java语言编写吗?
判断T50 HDFS以流的形式访问文件系统中的数据吗?
判断F51 HDFS既适合超大数据集存储,也适合小数据集的存储吗?
判断F52 HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行吗?
判断F54 Namenode启动时会自动进入安全模式,在此阶段,文件系统允许有修改吗?
简答5道
简答55HDFS中的写数据流程。
简答56 使用start-all.sh命令启动Hadoop时,请给出启动进程名称和各进程启动顺序。
简答57 HDFS里的edit log和fs image作用?
简答58 NameNode与SecondaryNameNode 的区别与联系?
简答59 在CentOS环境下,按照伪分布方式安装和配置Hadoop平台的主要过程。
加油!
感谢!
努力!
以上是关于大数据开发技术期末押题(暨考试题)的主要内容,如果未能解决你的问题,请参考以下文章
《spark技术应用》课程期末考试大作业报告,使用eclipse完成求top值文件排序二次排序三个程序的个性化开发。
数据开发者大会(第4期)暨天津市公共数据资源开放需求征集启动仪式成功举行