如何连接到 Pivotal HD（来自 Spark）？

Posted 2023-03-31

技术标签:

【中文标题】如何连接到 Pivotal HD（来自 Spark）？【英文标题】：How to connect to Pivotal HD (from Spark)? 【发布时间】：2015-09-11 05:28:43 【问题描述】：

我想知道如何将 Spark 应用程序连接到 Pivotal HD（一种 Hadoop 实现）。

使用 Spark 连接到它的最佳方式是什么？

val jdbcDataFrame = sqlContext.read.format("jdbc").options(
  Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()

【问题讨论】：

【参考方案1】：

我看到您的问题已经过编辑，但我会尽力回答您的所有问题。

Pivotal HD（以前称为 Greenplum HD）是 Hadoop 发行版，因此您应该像使用任何 Hadoop/HDFS 发行版一样使用它。具体来说：

text_file = spark.textFile("hdfs://...")

或通过 YARN 运行作业，请参阅：

http://spark.apache.org/docs/latest/running-on-yarn.html

Greenplum DB（分布式 Postgres）不支持 Pivotal HD。例外情况是，如果您指的是 Pivotal HAWQ，它实际上是 HDFS 之上的 Greenplum DB。

Greenplum 是一家构建 Greenplum DB 和 Greenplum HD 的公司，后来被 EMC 收购。随后，EMC 将几家企业归入“Pivotal Initiative”，将 Greenplum DB 重新命名为“Pivotal Greenplum Database”，将 Greenplum HD 重新命名为“Pivotal HD”。

【讨论】：

这是一个艰难的决定。我想采用最好的解决方案 - OTOH 我有 TB 的结构化和分区数据，非常适合 Greenplum。问题是我需要一次处理 TB 的数据。我发现自己几乎要重新实现 MapReduce 或至少是它的功能，以便数据可以放入内存中。毫无疑问，在 DB 端使用 MapReduce 性能会更好，但对结构化数据使用 Greenplum 以外的其他东西性能会不会降低？我认为这最好留给另一个问题：***.com/questions/32531383/…

以上是关于如何连接到 Pivotal HD（来自 Spark）？的主要内容，如果未能解决你的问题，请参考以下文章

如何通过 JMX 远程连接到 Dataproc 上的 Spark 工作器

我正在学习如何从 Spark the Definitive Guide 一书中将 sqlite 连接到 spark

如何在 Spark 中使用 Hadoop 凭据提供程序连接到 Oracle 数据库？

如何在本地使用 java 连接到带有 spark 的 Google 大查询？

如何将 Spark-Notebook 连接到 Hive 元存储？

如何使用 java 连接到 spark-shell 并执行 hive 查询