HadoopHiveHBase数据集成阶段测试

Posted xiexiexie0520

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HadoopHiveHBase数据集成阶段测试相关的知识,希望对你有一定的参考价值。

Hadoop、Hive、HBase、数据集成阶段测试

一、选择题(共10道,每道1分)

1、下面哪个程序负责HDFS数据存储( )

A. NameNode B. Jobtracher
C. DataNode D. SecondaryNameNode

2、下列哪个属性是hdfs-site.xml中的配置( )
A. fs.defaultFS B. dfs.replication
C. yarn.resourcemanager.address D. mapreduce.framework.name

3、Hadoop-2.x集群中的HDFS的默认的数据块的大小是( )
A. 256M B.32M
C.64M D.128M
4、Hadoop-2.x集群中的HDFS的默认的副本块的个数是( )
A. 1 B. 2
C. 3 D. 4

5、请问以下哪个命令组成是错误的( )
A.bin/hadoop fs -cat /data/c.txt B. sbin/hdfs dfsadmin -report
C. bin/hdfs namenode -format D.sbin/stop-dfs.sh

6、以下与HDFS类似的框架是( )
A. NTFS B. FAT32
C. GFS D.EXT3

7、HBase启动不需要哪个进程( )

A. HMaster B. HRegionServer
C. QuorumPeerMain D. NodeManager

8、下列哪个是纯离线数据采集工具( )

A. FlinkX B. Sqoop
C. Flume D. Canal

9、Map的输出结果首先被写入( )
A. 内存 B. 缓存
C. 磁盘 D. 以上都正确

10、MapReduce与HBase的关系,哪些描述是正确的?( )

A. 两者不可或缺,MapReduce是HBase可以正常运行的保证

B. 两者不是强关联关系,没有MapReduce,HBase可以正常运行

C. MapReduce不可以直接访问HBase

D. 它们之间没有任何关系

二、填空题(共10分,每空1分)

1、启动hdfs的shell脚本是:( )

2、Block是HDFS的基本存储单元,默认大小是( ) MB

3、MapReduce默认输入的格式化类:( )

4、Hadoop2.x三大组件:( )、( )、( )

5、Hiveserver2默认的端口:( )

6、HBase的RowKey设计三大原则:( )、( )、( )

三、判断题(共10道,每道1分)

1、Block Size是不可以修改的( )

2、如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作( )

3、Zookeeper可以用于存储Hive的元数据( )

4、MapReduce 切片的大小等于 block的大小( )

5、在HBase中由HMaster负责用户的IO请求( )

6、MapReduce中map任务的数量可以自己指定( )

7、DataX和FlinkX只能用于离线数据采集( )

8、Flume运行时需要依赖MapReduce( )

9、MemoryStore默认的大小为128MB( )

10、MapReduce中环形缓冲区默认大小为128M( )

四、简答题(共5道,每道4分)

1、简诉SecondaryNameNode的作用。

2、简诉HBase的写流程。

3、简诉MapReduce流程。

4、简诉Hive优化。

5、简诉任意两个数据采集工具及其适用场景。

五、代码题(50分)

1、请补充MR之WordCount代码块(20分)

import org.apache.hadoop.*;
import java.io.IOException;

public class Demo01WordCount 
    // Map任务 (2分)
    public static class MyMapper extends Mapper<            ,     , Text, IntWritable> 
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException 
            // Map Task逻辑 (5分)
 
        
    

    // Reduce任务

    public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> 
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException 
            // Reduce 逻辑 (5分)
            
        
    
    

    // Driver程序,主要负责配置及提交任务
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException 
        Configuration conf = new Configuration();
        
        // HDFS默认入口(2分)
        conf.set("fs.defaultFS", "                 ");
        
        // 创建一个MapReduce的Job
        Job job = Job.getInstance(conf);
        // 配置任务
        // 设置任务运行的名字
        job.setJobName("Demo01WordCount");
        // 设置任务运行哪一个类
        job.setJarByClass(Demo01WordCount.class);

        // 配置Map端 (3分)
        job.setMapperClass(                );
        job.setMapOutputKeyClass(                );
        job.setMapOutputValueClass(                );

        // 配置Reduce端 (3分)
        job.setReducerClass(                );
        job.setOutputKeyClass(                );
        job.setOutputValueClass(                );

        // 配置输入输出路径
		// 等待任务运行完成
        /**
        * 后续代码省略
        */

    


2、Hive数据分析(30分)

疫情期间各类政府媒体及社交网站,均发布了相关疫情每日统计数据,下面基于数据仓库工具Hive请你统计分析相关疫情数据。

提示:

数据字段为:日期date、省份province、城市city、新增确诊confirm、新增出院heal、新增死亡dead、消息来源source)

部分数据截图:

  • 1、请在hdfs根目录下中创建一个目录,以你的名字首字母加上“/data”命名(例如:张三,则目录名为:/zs/data),并将以上疫情数据(covid19.csv)上传到这个目录中,请列出相关命令。(4分)

    
    
  • 2、请在hive中创建一张外部表名为: ods_yiqing_data,字段名同上,列分隔符为",",数据存储位置为第1小题创建的目录(5分)

    提示:可能会用到的关键字 row format delimited fields terminated by、cluster by、distrubute by、partitioned by、location、stored as、sorted by、external

    
    
  • 3、统计合肥市每月新增确诊病例总数,按照总数降序排列,请提供SQL语句(6分)

    提示:可使用substring函数提取月份

    
    
  • 4、统计安徽省各市3月新增确诊病例总数,按照总数降序排列,请提供SQL语句(7分)

    
    
  • 5、统计湖北省每月新增出院病例总数最多的前3个城市,请提供SQL语句(8分)

    
    

以上是关于HadoopHiveHBase数据集成阶段测试的主要内容,如果未能解决你的问题,请参考以下文章

测试阶段之集成测试

软件测试按照开发阶段划分:单元测试集成测试系统测试

软件测试按照开发阶段划分:单元测试集成测试系统测试

软件测试按照开发阶段划分:单元测试集成测试系统测试

软件测试按照开发阶段划分:单元测试集成测试系统测试

测试基础2