HadoopHiveHBase数据集成阶段测试
Posted xiexiexie0520
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HadoopHiveHBase数据集成阶段测试相关的知识,希望对你有一定的参考价值。
Hadoop、Hive、HBase、数据集成阶段测试
一、选择题(共10道,每道1分)
1、下面哪个程序负责HDFS数据存储( )
A. NameNode B. Jobtracher
C. DataNode D. SecondaryNameNode
2、下列哪个属性是hdfs-site.xml中的配置( )
A. fs.defaultFS B. dfs.replication
C. yarn.resourcemanager.address D. mapreduce.framework.name
3、Hadoop-2.x集群中的HDFS的默认的数据块的大小是( )
A. 256M B.32M
C.64M D.128M
4、Hadoop-2.x集群中的HDFS的默认的副本块的个数是( )
A. 1 B. 2
C. 3 D. 4
5、请问以下哪个命令组成是错误的( )
A.bin/hadoop fs -cat /data/c.txt B. sbin/hdfs dfsadmin -report
C. bin/hdfs namenode -format D.sbin/stop-dfs.sh
6、以下与HDFS类似的框架是( )
A. NTFS B. FAT32
C. GFS D.EXT3
7、HBase启动不需要哪个进程( )
A. HMaster B. HRegionServer
C. QuorumPeerMain D. NodeManager
8、下列哪个是纯离线数据采集工具( )
A. FlinkX B. Sqoop
C. Flume D. Canal
9、Map的输出结果首先被写入( )
A. 内存 B. 缓存
C. 磁盘 D. 以上都正确
10、MapReduce与HBase的关系,哪些描述是正确的?( )
A. 两者不可或缺,MapReduce是HBase可以正常运行的保证
B. 两者不是强关联关系,没有MapReduce,HBase可以正常运行
C. MapReduce不可以直接访问HBase
D. 它们之间没有任何关系
二、填空题(共10分,每空1分)
1、启动hdfs的shell脚本是:( )
2、Block是HDFS的基本存储单元,默认大小是( ) MB
3、MapReduce默认输入的格式化类:( )
4、Hadoop2.x三大组件:( )、( )、( )
5、Hiveserver2默认的端口:( )
6、HBase的RowKey设计三大原则:( )、( )、( )
三、判断题(共10道,每道1分)
1、Block Size是不可以修改的( )
2、如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作( )
3、Zookeeper可以用于存储Hive的元数据( )
4、MapReduce 切片的大小等于 block的大小( )
5、在HBase中由HMaster负责用户的IO请求( )
6、MapReduce中map任务的数量可以自己指定( )
7、DataX和FlinkX只能用于离线数据采集( )
8、Flume运行时需要依赖MapReduce( )
9、MemoryStore默认的大小为128MB( )
10、MapReduce中环形缓冲区默认大小为128M( )
四、简答题(共5道,每道4分)
1、简诉SecondaryNameNode的作用。
2、简诉HBase的写流程。
3、简诉MapReduce流程。
4、简诉Hive优化。
5、简诉任意两个数据采集工具及其适用场景。
五、代码题(50分)
1、请补充MR之WordCount代码块(20分)
import org.apache.hadoop.*;
import java.io.IOException;
public class Demo01WordCount
// Map任务 (2分)
public static class MyMapper extends Mapper< , , Text, IntWritable>
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException
// Map Task逻辑 (5分)
// Reduce任务
public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable>
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException
// Reduce 逻辑 (5分)
// Driver程序,主要负责配置及提交任务
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException
Configuration conf = new Configuration();
// HDFS默认入口(2分)
conf.set("fs.defaultFS", " ");
// 创建一个MapReduce的Job
Job job = Job.getInstance(conf);
// 配置任务
// 设置任务运行的名字
job.setJobName("Demo01WordCount");
// 设置任务运行哪一个类
job.setJarByClass(Demo01WordCount.class);
// 配置Map端 (3分)
job.setMapperClass( );
job.setMapOutputKeyClass( );
job.setMapOutputValueClass( );
// 配置Reduce端 (3分)
job.setReducerClass( );
job.setOutputKeyClass( );
job.setOutputValueClass( );
// 配置输入输出路径
// 等待任务运行完成
/**
* 后续代码省略
*/
2、Hive数据分析(30分)
疫情期间各类政府媒体及社交网站,均发布了相关疫情每日统计数据,下面基于数据仓库工具Hive请你统计分析相关疫情数据。
提示:
(数据字段为:日期date、省份province、城市city、新增确诊confirm、新增出院heal、新增死亡dead、消息来源source)
部分数据截图:
-
1、请在hdfs根目录下中创建一个目录,以你的名字首字母加上“/data”命名(例如:张三,则目录名为:/zs/data),并将以上疫情数据(covid19.csv)上传到这个目录中,请列出相关命令。(4分)
-
2、请在hive中创建一张外部表名为: ods_yiqing_data,字段名同上,列分隔符为",",数据存储位置为第1小题创建的目录(5分)
提示:可能会用到的关键字 row format delimited fields terminated by、cluster by、distrubute by、partitioned by、location、stored as、sorted by、external
-
3、统计合肥市每月新增确诊病例总数,按照总数降序排列,请提供SQL语句(6分)
提示:可使用substring函数提取月份
-
4、统计安徽省各市3月新增确诊病例总数,按照总数降序排列,请提供SQL语句(7分)
-
5、统计湖北省每月新增出院病例总数最多的前3个城市,请提供SQL语句(8分)
以上是关于HadoopHiveHBase数据集成阶段测试的主要内容,如果未能解决你的问题,请参考以下文章