实测|MatrixDB是Hive的25.8倍

Posted 盒马coding

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实测|MatrixDB是Hive的25.8倍相关的知识,希望对你有一定的参考价值。

目录

背景

TPC-H是什么

测试版本

测试表的格式

服务器配置

测试结果

测试步骤

MatrixDB测试结果


背景

本次测试主要是MatrixDB和Hive进行使用国际标准TPCH工具测试,并分别查看22条SQL的耗时。对比MatrixDB与Hive在1204GB数据量下查询性能差异。

TPC-H是什么

TPC-H是一个决策支持基准(Decision Support Benchmark),由国际事务处理性能委员会(Transaction Processing Performance Council)发布的数据库领域权威测试标准之一,是被工业界和学术界普遍认可的决策支持测试标准,也是数据库选型的重要参考指标之一。这个基准测试提现了在大量数据、执行高度复杂的查询并回答关键业务问题的决策支持系统。

TPC-H查询包含8张数据表、22条复杂的SQL查询,大多数查询包含若干表Join、子查询和Group-by聚合等。

测试版本

软件名字

版本

Matrixdb

MatrixDB 4.4.7

Hive

3.1.0

Tez

0.9.1

YARN + MapReduce2

3.1.1

HDFS

3.1.1.3.1

测试表的格式

软件

表的类型

Matrixdb

AOCO

Hive

 STORED AS TEXTFILE

服务器配置

序号

系统架构

操作系统  

主机名

CPU核数

内存

数据盘

是否raid

网卡

1

X86-64

CentOS 7.8

mdw

64c

256GB

SAS,

22T

10000Mb/s

2

X86-64

CentOS 7.8

sdw1

64c

256GB

SAS,

22T

10000Mb/s

3

X86-64

CentOS 7.8

sdw2

64c

256GB

SAS,

22T

10000Mb/s

4

X86-64

CentOS 7.8

sdw3

64c

256GB

SAS,

22T

10000Mb/s

测试结果

Query

Matrixdb 执行时间(单位:秒)

Hive(Tez查询)执行时间

(单位:秒)

SQL1

120

828.75

SQL2

56

132.43

SQL3

152

1920.80

SQL4

62

2544.56

SQL5

233

1972.58

SQL6

4

515.38

SQL7

102

5053.18

SQL8

59

2016.20

SQL9

293

3047.84

SQL10

133

1679.50

SQL11

17

226.12

SQL12

47

1749.04

SQL13

55

852.39

SQL14

6

573.96

SQL15

29

1047.79

SQL16

23

592.49

SQL17

114

6994.56

SQL18

481

4195.88

SQL19

26

500.28

SQL20

43

2733.27

SQL21

233

19046.48

SQL22

18

1375.20

合计

2306

59598.68

测试步骤

1、使用TPCH工具生成1024GB大小的数据加载到MatrixDB中并进行22条SQL查询测试

2、使用Hive测试工具TPCH生成1024GB大小的测试数据并进行22条SQL查询测试

3、测试22个query的内容中包含若干表Join、子查询和Group-by聚合等

MatrixDB测试结果

mxadmin=# select * from tpch_reports.sql order by id;

 id  | description | tuples |    duration

-----+-------------+--------+-----------------

 101 | tpch.01     |      4 | 00:02:00.120885

 102 | tpch.02     |    100 | 00:00:56.5631

 103 | tpch.03     |     10 | 00:02:32.152663

 104 | tpch.04     |      5 | 00:01:02.62619

 105 | tpch.05     |      5 | 00:03:53.233652

 106 | tpch.06     |      1 | 00:00:04.4446

 107 | tpch.07     |      4 | 00:01:42.102137

 108 | tpch.08     |      2 | 00:00:59.59693

 109 | tpch.09     |    175 | 00:04:53.293484

 110 | tpch.10     |     20 | 00:02:13.133002

 111 | tpch.11     |      0 | 00:00:17.17094

 112 | tpch.12     |      2 | 00:00:47.47593

 113 | tpch.13     |     29 | 00:00:55.55813

 114 | tpch.14     |      1 | 00:00:06.6373

 115 | tpch.15     |      1 | 00:00:29.29671

 116 | tpch.16     |  27840 | 00:00:23.23941

 117 | tpch.17     |      1 | 00:01:54.114318

 118 | tpch.18     |    100 | 00:08:01.481215

 119 | tpch.19     |      1 | 00:00:26.26927

 120 | tpch.20     | 113661 | 00:00:43.43858

 121 | tpch.21     |    100 | 00:03:53.233897

 122 | tpch.22     |      7 | 00:00:18.18489

(22 rows)

Hive 测试结果

***********************************************

*           PC-H benchmark on Hive            *

***********************************************

Running Hive from

Running Hadoop from

See benchmark.log for more details of query errors.

Executing Trial #1 of 1 trial(s)...

Running Hive query: tpch/q1_pricing_summary_report.hive

Time:828.75

Running Hive query: tpch/q2_minimum_cost_supplier.hive

Time:132.43

Running Hive query: tpch/q3_shipping_priority.hive

Time:1920.80

Running Hive query: tpch/q4_order_priority.hive

Time:2544.56

Running Hive query: tpch/q5_local_supplier_volume.hive

Time:1972.58

Running Hive query: tpch/q6_forecast_revenue_change.hive

Time:515.38

Running Hive query: tpch/q7_volume_shipping.hive

Time:5053.18

Running Hive query: tpch/q8_national_market_share.hive

Time:2016.20

Running Hive query: tpch/q9_product_type_profit.hive

Time:3047.84

Running Hive query: tpch/q10_returned_item.hive

Time:1679.50

Running Hive query: tpch/q11_important_stock.hive

Time:226.12

Running Hive query: tpch/q12_shipping.hive

Time:1749.04

Running Hive query: tpch/q13_customer_distribution.hive

Time:852.39

Running Hive query: tpch/q14_promotion_effect.hive

Time:573.96

Running Hive query: tpch/q15_top_supplier.hive

Time:1047.79

Running Hive query: tpch/q16_parts_supplier_relationship.hive

Time:592.49

Running Hive query: tpch/q17_small_quantity_order_revenue.hive

Time:6994.56

Running Hive query: tpch/q18_large_volume_customer.hive

Time:4195.88

Running Hive query: tpch/q19_discounted_revenue.hive

Time:500.28

Running Hive query: tpch/q20_potential_part_promotion.hive

Time:2733.27

Running Hive query: tpch/q21_suppliers_who_kept_orders_waiting.hive

Time:19046.48

Running Hive query: tpch/q22_global_sales_opportunity.hive

Time:1375.20

以上是关于实测|MatrixDB是Hive的25.8倍的主要内容,如果未能解决你的问题,请参考以下文章

实测|MatrixDB是Hive的25.8倍

MatrixDB是Hive的25.8倍是Impala+Kudu的8.8倍

MatrixDB是Hive的25.8倍是Impala+Kudu的8.8倍

MatrixDB是Hive的25.8倍是Impala+Kudu的8.8倍

ChatGPT付费就变快!实测提速超2倍正确率更高,定价每月20刀

【工作】Presto 集群实测,以及与Spark3、Hive3性能对比