HadoopHiveHBase数据集成阶段测试

Posted 2022-08-05 xiexiexie0520

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了HadoopHiveHBase数据集成阶段测试相关的知识，希望对你有一定的参考价值。

Hadoop、Hive、HBase、数据集成阶段测试

一、选择题（共10道，每道1分）

1、下面哪个程序负责HDFS数据存储（）

A. NameNode B. Jobtracher
C. DataNode D. SecondaryNameNode

2、下列哪个属性是hdfs-site.xml中的配置（）
A. fs.defaultFS B. dfs.replication
C. yarn.resourcemanager.address D. mapreduce.framework.name

3、Hadoop-2.x集群中的HDFS的默认的数据块的大小是（）
A. 256M B.32M
C.64M D.128M
4、Hadoop-2.x集群中的HDFS的默认的副本块的个数是（）
A. 1 B. 2
C. 3 D. 4

5、请问以下哪个命令组成是错误的（）
A.bin/hadoop fs -cat /data/c.txt B. sbin/hdfs dfsadmin -report
C. bin/hdfs namenode -format D.sbin/stop-dfs.sh

6、以下与HDFS类似的框架是（）
A. NTFS B. FAT32
C. GFS D.EXT3

7、HBase启动不需要哪个进程（）

A. HMaster B. HRegionServer
C. QuorumPeerMain D. NodeManager

8、下列哪个是纯离线数据采集工具（）

A. FlinkX B. Sqoop
C. Flume D. Canal

9、Map的输出结果首先被写入（）
A. 内存 B. 缓存
C. 磁盘 D. 以上都正确

10、MapReduce与HBase的关系，哪些描述是正确的？（）

A. 两者不可或缺，MapReduce是HBase可以正常运行的保证

B. 两者不是强关联关系，没有MapReduce，HBase可以正常运行

C. MapReduce不可以直接访问HBase

D. 它们之间没有任何关系

二、填空题（共10分，每空1分）

1、启动hdfs的shell脚本是：（）

2、Block是HDFS的基本存储单元，默认大小是（） MB

3、MapReduce默认输入的格式化类：（）

4、Hadoop2.x三大组件：（）、（）、（）

5、Hiveserver2默认的端口：（）

6、HBase的RowKey设计三大原则：（）、（）、（）

三、判断题（共10道，每道1分）

1、Block Size是不可以修改的（）

2、如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作（）

3、Zookeeper可以用于存储Hive的元数据（）

4、MapReduce 切片的大小等于 block的大小（）

5、在HBase中由HMaster负责用户的IO请求（）

6、MapReduce中map任务的数量可以自己指定（）

7、DataX和FlinkX只能用于离线数据采集（）

8、Flume运行时需要依赖MapReduce（）

9、MemoryStore默认的大小为128MB（）

10、MapReduce中环形缓冲区默认大小为128M（）

四、简答题（共5道，每道4分）

1、简诉SecondaryNameNode的作用。

2、简诉HBase的写流程。

3、简诉MapReduce流程。

4、简诉Hive优化。

5、简诉任意两个数据采集工具及其适用场景。

五、代码题（50分）

1、请补充MR之WordCount代码块（20分）

import org.apache.hadoop.*;
import java.io.IOException;

public class Demo01WordCount 
    // Map任务 （2分）
    public static class MyMapper extends Mapper<            ,     , Text, IntWritable> 
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException 
            // Map Task逻辑 （5分）
 
        
    

    // Reduce任务

    public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> 
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException 
            // Reduce 逻辑 （5分）
            
        
    
    

    // Driver程序，主要负责配置及提交任务
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException 
        Configuration conf = new Configuration();
        
        // HDFS默认入口（2分）
        conf.set("fs.defaultFS", "                 ");
        
        // 创建一个MapReduce的Job
        Job job = Job.getInstance(conf);
        // 配置任务
        // 设置任务运行的名字
        job.setJobName("Demo01WordCount");
        // 设置任务运行哪一个类
        job.setJarByClass(Demo01WordCount.class);

        // 配置Map端 （3分）
        job.setMapperClass(                );
        job.setMapOutputKeyClass(                );
        job.setMapOutputValueClass(                );

        // 配置Reduce端 （3分）
        job.setReducerClass(                );
        job.setOutputKeyClass(                );
        job.setOutputValueClass(                );

        // 配置输入输出路径
		// 等待任务运行完成
        /**
        * 后续代码省略
        */

2、Hive数据分析（30分）

疫情期间各类政府媒体及社交网站，均发布了相关疫情每日统计数据，下面基于数据仓库工具Hive请你统计分析相关疫情数据。

提示：

（数据字段为：日期date、省份province、城市city、新增确诊confirm、新增出院heal、新增死亡dead、消息来源source）

部分数据截图：

1、请在hdfs根目录下中创建一个目录，以你的名字首字母加上“/data”命名（例如：张三，则目录名为：/zs/data），并将以上疫情数据（covid19.csv）上传到这个目录中，请列出相关命令。（4分）
2、请在hive中创建一张外部表名为: ods_yiqing_data，字段名同上，列分隔符为","，数据存储位置为第1小题创建的目录（5分）

提示：可能会用到的关键字 row format delimited fields terminated by、cluster by、distrubute by、partitioned by、location、stored as、sorted by、external
3、统计合肥市每月新增确诊病例总数，按照总数降序排列，请提供SQL语句（6分）

提示：可使用substring函数提取月份
4、统计安徽省各市3月新增确诊病例总数，按照总数降序排列，请提供SQL语句（7分）
5、统计湖北省每月新增出院病例总数最多的前3个城市，请提供SQL语句（8分）

以上是关于HadoopHiveHBase数据集成阶段测试的主要内容，如果未能解决你的问题，请参考以下文章