实测|MatrixDB是Hive的25.8倍
Posted 盒马coding
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实测|MatrixDB是Hive的25.8倍相关的知识,希望对你有一定的参考价值。
目录
背景
本次测试主要是MatrixDB和Hive进行使用国际标准TPCH工具测试,并分别查看22条SQL的耗时。对比MatrixDB与Hive在1204GB数据量下查询性能差异。
TPC-H是什么
TPC-H是一个决策支持基准(Decision Support Benchmark),由国际事务处理性能委员会(Transaction Processing Performance Council)发布的数据库领域权威测试标准之一,是被工业界和学术界普遍认可的决策支持测试标准,也是数据库选型的重要参考指标之一。这个基准测试提现了在大量数据、执行高度复杂的查询并回答关键业务问题的决策支持系统。
TPC-H查询包含8张数据表、22条复杂的SQL查询,大多数查询包含若干表Join、子查询和Group-by聚合等。
测试版本
软件名字 | 版本 |
Matrixdb | MatrixDB 4.4.7 |
Hive | 3.1.0 |
Tez | 0.9.1 |
YARN + MapReduce2 | 3.1.1 |
HDFS | 3.1.1.3.1 |
测试表的格式
软件 | 表的类型 |
Matrixdb | AOCO |
Hive | STORED AS TEXTFILE |
服务器配置
序号 | 系统架构 | 操作系统 | 主机名 | CPU核数 | 内存 | 数据盘 | 是否raid | 网卡 |
1 | X86-64 | CentOS 7.8 | mdw | 64c | 256GB | SAS, 22T | 是 | 10000Mb/s |
2 | X86-64 | CentOS 7.8 | sdw1 | 64c | 256GB | SAS, 22T | 是 | 10000Mb/s |
3 | X86-64 | CentOS 7.8 | sdw2 | 64c | 256GB | SAS, 22T | 是 | 10000Mb/s |
4 | X86-64 | CentOS 7.8 | sdw3 | 64c | 256GB | SAS, 22T | 是 | 10000Mb/s |
测试结果
Query | Matrixdb 执行时间(单位:秒) | Hive(Tez查询)执行时间 (单位:秒) |
SQL1 | 120 | 828.75 |
SQL2 | 56 | 132.43 |
SQL3 | 152 | 1920.80 |
SQL4 | 62 | 2544.56 |
SQL5 | 233 | 1972.58 |
SQL6 | 4 | 515.38 |
SQL7 | 102 | 5053.18 |
SQL8 | 59 | 2016.20 |
SQL9 | 293 | 3047.84 |
SQL10 | 133 | 1679.50 |
SQL11 | 17 | 226.12 |
SQL12 | 47 | 1749.04 |
SQL13 | 55 | 852.39 |
SQL14 | 6 | 573.96 |
SQL15 | 29 | 1047.79 |
SQL16 | 23 | 592.49 |
SQL17 | 114 | 6994.56 |
SQL18 | 481 | 4195.88 |
SQL19 | 26 | 500.28 |
SQL20 | 43 | 2733.27 |
SQL21 | 233 | 19046.48 |
SQL22 | 18 | 1375.20 |
合计 | 2306 | 59598.68 |
测试步骤
1、使用TPCH工具生成1024GB大小的数据加载到MatrixDB中并进行22条SQL查询测试
2、使用Hive测试工具TPCH生成1024GB大小的测试数据并进行22条SQL查询测试
3、测试22个query的内容中包含若干表Join、子查询和Group-by聚合等
MatrixDB测试结果
mxadmin=# select * from tpch_reports.sql order by id; id | description | tuples | duration -----+-------------+--------+----------------- 101 | tpch.01 | 4 | 00:02:00.120885 102 | tpch.02 | 100 | 00:00:56.5631 103 | tpch.03 | 10 | 00:02:32.152663 104 | tpch.04 | 5 | 00:01:02.62619 105 | tpch.05 | 5 | 00:03:53.233652 106 | tpch.06 | 1 | 00:00:04.4446 107 | tpch.07 | 4 | 00:01:42.102137 108 | tpch.08 | 2 | 00:00:59.59693 109 | tpch.09 | 175 | 00:04:53.293484 110 | tpch.10 | 20 | 00:02:13.133002 111 | tpch.11 | 0 | 00:00:17.17094 112 | tpch.12 | 2 | 00:00:47.47593 113 | tpch.13 | 29 | 00:00:55.55813 114 | tpch.14 | 1 | 00:00:06.6373 115 | tpch.15 | 1 | 00:00:29.29671 116 | tpch.16 | 27840 | 00:00:23.23941 117 | tpch.17 | 1 | 00:01:54.114318 118 | tpch.18 | 100 | 00:08:01.481215 119 | tpch.19 | 1 | 00:00:26.26927 120 | tpch.20 | 113661 | 00:00:43.43858 121 | tpch.21 | 100 | 00:03:53.233897 122 | tpch.22 | 7 | 00:00:18.18489 (22 rows) |
Hive 测试结果
*********************************************** * PC-H benchmark on Hive * *********************************************** Running Hive from Running Hadoop from See benchmark.log for more details of query errors. Executing Trial #1 of 1 trial(s)... Running Hive query: tpch/q1_pricing_summary_report.hive Time:828.75 Running Hive query: tpch/q2_minimum_cost_supplier.hive Time:132.43 Running Hive query: tpch/q3_shipping_priority.hive Time:1920.80 Running Hive query: tpch/q4_order_priority.hive Time:2544.56 Running Hive query: tpch/q5_local_supplier_volume.hive Time:1972.58 Running Hive query: tpch/q6_forecast_revenue_change.hive Time:515.38 Running Hive query: tpch/q7_volume_shipping.hive Time:5053.18 Running Hive query: tpch/q8_national_market_share.hive Time:2016.20 Running Hive query: tpch/q9_product_type_profit.hive Time:3047.84 Running Hive query: tpch/q10_returned_item.hive Time:1679.50 Running Hive query: tpch/q11_important_stock.hive Time:226.12 Running Hive query: tpch/q12_shipping.hive Time:1749.04 Running Hive query: tpch/q13_customer_distribution.hive Time:852.39 Running Hive query: tpch/q14_promotion_effect.hive Time:573.96 Running Hive query: tpch/q15_top_supplier.hive Time:1047.79 Running Hive query: tpch/q16_parts_supplier_relationship.hive Time:592.49 Running Hive query: tpch/q17_small_quantity_order_revenue.hive Time:6994.56 Running Hive query: tpch/q18_large_volume_customer.hive Time:4195.88 Running Hive query: tpch/q19_discounted_revenue.hive Time:500.28 Running Hive query: tpch/q20_potential_part_promotion.hive Time:2733.27 Running Hive query: tpch/q21_suppliers_who_kept_orders_waiting.hive Time:19046.48 Running Hive query: tpch/q22_global_sales_opportunity.hive Time:1375.20 |
以上是关于实测|MatrixDB是Hive的25.8倍的主要内容,如果未能解决你的问题,请参考以下文章
MatrixDB是Hive的25.8倍是Impala+Kudu的8.8倍
MatrixDB是Hive的25.8倍是Impala+Kudu的8.8倍
MatrixDB是Hive的25.8倍是Impala+Kudu的8.8倍