Greenplum 与远程 Hadoop 连接
Posted
技术标签:
【中文标题】Greenplum 与远程 Hadoop 连接【英文标题】:Greenplum with Remote Hadoop Connect 【发布时间】:2016-12-02 06:54:53 【问题描述】:我是 Greenplum DB 的新手。我已经安装了greenplum 4.3.7.2 版本。现在我需要连接安装在另一个系统上的 Hadoop 系统。请告知我应该如何安装 GPHDFS 并连接 hadoop hdfs 文件。
【问题讨论】:
【参考方案1】:对于 greenplum 和 hadoop 不同的主机,请执行以下操作:
-
在你的 hadoop Namenode 上压缩 gphd-1.1 目录并将其移动到 Master 上的 DCA(你可以选择任何目录来移动它)
作为 DCA gpscp gphd-1.1 tar 文件的 gpadmin 用户到所有分段服务器(使用与主服务器相同的目录位置)
gpssh 到所有分段服务器并解压缩文件(也在主服务器上解压缩)
例如,如果 untar 创建目录 /home/gpadmin/gphd-1.1,那么这将成为您的 gp_hadoop_home
Manish,可能是上面的帮助,参考这里的文章—— https://dwarehouse.wordpress.com/2012/10/10/greenplum-and-hadoop-hdfs-integration/#comment-479
请发表您的发现。
谢谢。
【讨论】:
虽然理论上可以回答这个问题,it would be preferable 在这里包含答案的基本部分,并提供链接以供参考。如果链接页面发生更改,仅链接的答案可能会失效。以上是关于Greenplum 与远程 Hadoop 连接的主要内容,如果未能解决你的问题,请参考以下文章
如何从 Jupyter Notebook 中的 PySpark 远程连接到 Greenplum 数据库?