如何编译及使用hive-testbench生成Hive基准测试数据

Posted Hadoop实操

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何编译及使用hive-testbench生成Hive基准测试数据相关的知识,希望对你有一定的参考价值。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。


Fayson的github:https://github.com/fayson/cdhproject


提示:代码块部分可以左右滑动查看噢


1.文档编写目的



前面Fayson介绍了《》,在本篇文章Fayson主要介绍GitHub上的一个开源的项目hive-testbench,该项目主要基于TPC-DS进行封装利用MapReduce的方式快速的生成Hive基准测试数据,本篇文章主要介绍如何编译及使用hive-testbench生成指定数据量的Hive基准测试数据。


  • 内容概述:

1.环境准备及编译hive-testbench

2.生成并加载数据

3.总结


  • 测试环境:

1.RedHat7.3

2.采用root用户操作


2.环境准备




https://github.com/hortonworks/hive-testbench.git

(可左右滑动)


下载至本地目录


[root@ip-172-31-16-68 ~]# git clone https://github.com/hortonworks/hive-testbench.git

(可左右滑动)



2.安装hive-testbench编译依赖环境


[root@ip-172-31-16-68 ~]# yum -y install gcc gcc-c++

(可左右滑动)

如何编译及使用hive-testbench生成Hive基准测试数据


3.编译并打包hive-testbench



这里Fayson只是用TPC-DS,所以主要介绍编译TPC-DS,TPC-H的编译方式一样只是使用的脚本为tpch-build.sh,在编译的过程中需要下载Maven和TPC-DS或TPC-H的源码工程,所以该编译节点需要有访问互联网的权限。


1. 进入hive-testbench目录


[root@ip-172-31-16-68 ~]# cd hive-testbench/
[root@ip-172-31-16-68 hive-testbench]# ll

(可左右滑动)

如何编译及使用hive-testbench生成Hive基准测试数据



2.在hive-testbench目录下执行如下脚本进行编译打包


  
    
    
  
[root@ip-172-31-16-68 hive-testbench]# ./tpcds-build.sh 

(可左右滑动)

如何编译及使用hive-testbench生成Hive基准测试数据


3.等待编译结束,如下显示则表示编译成功

如何编译及使用hive-testbench生成Hive基准测试数据

至此已完成hive-testbench的编译


4.生成并加载数据



1.在hive-testbench目录下执行如下脚本生成并加载测试数据


  
    
    
  
[root@ip-172-31-16-68 hive-testbench]# ./tpcds-setup.sh 10 /extwarehouse/tpcds

(可左右滑动)

参数说明:

10表示生成的数据量大小GB单位

/extwarehouse/tpcds表数据数据生成的目录,目录不存在自动生成,如果不指定数据目录则默认生成到/tmp/tpcds目录下。


如何编译及使用hive-testbench生成Hive基准测试数据


由上图可以看到生成数据的方式是向集群提交了一个MapReduce作业,使用这种方式生成测试数据会比前面Fayson介绍的《》效率高。


2.等待脚本执行成功


如何编译及使用hive-testbench生成Hive基准测试数据


有如上图显示则表示脚本执行成功,成功生成了测试数据并创建了tpcds_text_10和tpcds_bin_partitioned_orc_10两个数据库。


3.在命令行查看HDFS上的数据是否与我们指定的量一致


如何编译及使用hive-testbench生成Hive基准测试数据


数据总量与指定10GB数据量一致(注意:这里生成数据会与指定的量有一些出入)


如何编译及使用hive-testbench生成Hive基准测试数据


各个表大小


如何编译及使用hive-testbench生成Hive基准测试数据


4.通过Hue验证生成的测试数据


如何编译及使用hive-testbench生成Hive基准测试数据


可以看到生成了两个数据库分别为tpcds_text_10和tpcds_bin_partitioned_orc_10两个库。


如何编译及使用hive-testbench生成Hive基准测试数据


生成了测试用的所有表, 并将数据load到相应的表中



5.总结



在编译hive-testbench项目时需要有外网环境,在编译的过程会下载Maven的安装包、下载Maven依赖以及TPC-DS的源码在后面的文章Fayson会结合真实环境通过脚本的方式运行TPC-DS的99条SQL来做Hive、Impala、Presto等服务的基准测试。


参考:

https://github.com/hortonworks/hive-testbench



提示:代码块部分可以左右滑动查看噢


为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。



推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。


以上是关于如何编译及使用hive-testbench生成Hive基准测试数据的主要内容,如果未能解决你的问题,请参考以下文章

海思芯片(hi3516dv300)uboot镜像生成过程详解

Openharmony3.1编译Hi3516DV300标准版系统体验及img档分享

HI3861学习笔记——编译构建和代码运行过程

hi3531 SDK 编译 uboot, 改动PHY地址, 改动 uboot 參数 .

MPLAB IDE如何生成LIB库文件

Hi3516开发笔记:Hi3516虚拟机交叉开发环境搭建之交叉编译Qt