rdbms 与 spark sql 的区别

Posted

技术标签:

【中文标题】rdbms 与 spark sql 的区别【英文标题】:differences between rdbms vs. spark sql 【发布时间】:2015-08-04 07:46:13 【问题描述】:

我正在使用 Apache-Spark,在我的项目中,我想使用 Spark-SQL。但是,我必须确定 Spark-SQL 的查询性能。我知道 Spark-SQL 不像 RDBMS 那样有效。但是我想知道 Spark-SQL 和 RDBMS 查询之间的时间差距太大吗?

例如,我正在开发具有 4 GB 内存和 1 个核心 CPU 的虚拟机。这是一个缓慢的系统。我有一个包含 2 个表的小数据集。第一个有 5M 记录,第二个有 1K 记录。当我加入两个表时,查询大约需要 60 秒。使用此硬件的 Spark-SQL 是否正常?如果我用 RDBMS 做同样的连接操作,它会花费更少的时间,但我无法在办公室用物理限制对其进行测试。

最后一个问题:如何减少 Spark-SQL 中的查询时间?

【问题讨论】:

我能问你为什么要使用 spark 而你只有一台机器并且只有小数据量吗?? @Abdulrahman,稍后我们将对大型数据集使用集群和流式操作。但是,我现在正在研究如何将 Spark 和 Spark SQL 应用于我们的应用程序。这台机器和小套装是用来研究的。 【参考方案1】:

我认为问题出在虚拟机上。我在同一条船上,最终做的是在 Windows 上安装 Spark(你可以这样做,只需 google 即可)。性能要好得多(我有一台 4 核笔记本电脑,4gb 内存和 ssd 驱动器)。

Spark-SQL 非常强大,具体取决于您的需求。您与性能进行比较的结果将是惊人的,但是您需要做/实现的事情与您过去在常规 RDBMS 中所做的事情不同。

【讨论】:

以上是关于rdbms 与 spark sql 的区别的主要内容,如果未能解决你的问题,请参考以下文章

DQLDMLDDLDCL的概念与区别

DQLDMLDDLDCL的概念与区别

DQLDMLDDLDCL的概念与区别

DQLDMLDDLDCL的概念与区别

spark的join和sql的join的区别

DQLDMLDDLDCL的概念与区别