用于 spark/hadoop 的 Postgres 适配器增加了啥价值?

Posted

技术标签:

【中文标题】用于 spark/hadoop 的 Postgres 适配器增加了啥价值?【英文标题】:What value does Postgres adapter for spark/hadoop add?用于 spark/hadoop 的 Postgres 适配器增加了什么价值? 【发布时间】:2018-09-13 20:48:49 【问题描述】:

我不是 HDFS 书呆子,但来自传统的 RDMS 背景,我正在研究 Hadoop 和 Spark 等新技术。现在,当涉及到对 Spark 数据的 SQL 查询时,我正在考虑我的选择。

我意识到 Spark 天生就支持 SQL 查询。然后我发现了这个链接

https://www.enterprisedb.com/news/enterprisedb-announces-new-apache-spark-connecter-speed-postgres-big-data-processing

我试图弄明白这一点。如果我理解正确的话。数据仍以 HDFS 格式存储,但 Postgres 连接器用作查询引擎?如果是这样,在存在现有查询框架的情况下,这个 postgress 连接器添加了什么新价值?

还是我误解了它的实际作用?

【问题讨论】:

你在这个答案中发现了什么价值吗?如果没有,你从自己身上发现了什么? 【参考方案1】:

我觉得你误会了。

他们提到了 Foreign Data Wrapper 的概念。

"...它们允许 PostgreSQL 查询包括来自多个来源(如 Postgres 和 NoSQL 数据库以及 HDFS)的结构化或非结构化数据,就像它们位于单个数据库中一样。... "

这听起来像是 Oracle 大数据机方法。从 Postgres 您可以从逻辑上查看数据处理的世界,就好像它都是 Postgres,但在水下使用 Postgres 查询引擎调用的 Spark 查询引擎访问 HDFS 数据,但您不必担心这是可能的前提.我们处于虚拟化领域。您可以动态组合大数据和 Postgres 数据。

没有像 Spark 数据这样的东西,因为它不是数据库,除非有一些与 Hive 不兼容的 Spark 格式化数据。

价值总是会说你不需要学习大数据等。这是否属实还有待观察。

【讨论】:

以上是关于用于 spark/hadoop 的 Postgres 适配器增加了啥价值?的主要内容,如果未能解决你的问题,请参考以下文章

MongoDB & Spark:mongo-hadoop 和 mongo-spark 的区别

Windows下搭建Spark+Hadoop开发环境

elasticsearch spark hadoop integration

Spark是否会成为Hadoop的终结者

Windows 下 Spark+Hadoop+Scala 安装

Spark+Hadoop问题小结