Pivotal greenplum - talend 的 gpload 问题

Posted

技术标签:

【中文标题】Pivotal greenplum - talend 的 gpload 问题【英文标题】:Pivotal greenplum - gpload issue with talend 【发布时间】:2017-02-26 08:30:20 【问题描述】:

当我尝试从 talend etl 服务器运行 gpload 进程时,我需要先配置 tgreenpluGPload 组件。在对组件进行配置时,它正在寻找远程 Greenplum 服务器文件,而不是基于本地窗口的 talend ETL 文件。

环境细节

Talend 服务器基于 - windows server 2012

Greenplum Cluster 基于-centos 7

主要原因: Greenplum 数据库服务器(Linux)与 ETL talend 服务器(窗口)是远程的。因此,当我从窗口服务器运行作业时,greenplum db 服务器对它来说是远程的。另外,我无法配置组件 tgreenplumGPload。

屏幕截图 tgreenplumGPload 设置:

更多详情: 1) gpfdist 程序正在Greenplum master 主机上运行。

[gpadmin@mdw ~]$ ps -A | grep gpfdist
20071 pts/0    00:00:00 gpfdist
[gpadmin@mdw ~]$

2) 从 gpdb 命令行检查合并操作 - 以下进程正在 greenplum 服务器中运行。

[gpadmin@mdw ~]$ gpload -f gpload.yml
2017-02-25 20:20:48|INFO|gpload session started 2017-02-25 20:20:48
2017-02-25 20:20:48|INFO|started gpfdist -p 8081 -P 8082 -f "/home/gpadmin/demo/gp_RevenueReport_stg0.txt" -t 30
2017-02-25 20:20:48|INFO|running time: 0.20 seconds
2017-02-25 20:20:48|INFO|rows Inserted          = 0
2017-02-25 20:20:48|INFO|rows Updated           = 3
2017-02-25 20:20:48|INFO|data formatting errors = 0
2017-02-25 20:20:48|INFO|gpload succeeded

第一季度: 如何在 Linux 上设置共享文件夹供 Windows 访问。这样,我们可以在 tgreenplumGPload 设置中使用。或者有没有其他方法可以做到这一点。

任何帮助将不胜感激!

【问题讨论】:

【参考方案1】:

gpfdist 将在 ETL 服务器上运行,而不是在 Master 主机上。

您必须将 ETL 服务器 ip 和名称添加到 Greenplum 集群中所有节点上的 /etc/hosts 文件中。然后,您需要确保 ETL 服务器可以直接与 Greenplum 专用网络中的分段主机通信。这将需要将 Greenplum 使用的 10GB 专用交换机连接到您的 10GB LAN 并创建一个 VLAN,以便您可以访问节点,或者您可以从 ETL 服务器运行 10GB 电缆以打开 10GB 交换机的端口并为其分配一个 IP 地址与现有主机不冲突。

【讨论】:

谢谢乔恩。我理解 /etc/hosts 文件条目是出于网络目的。能否请您用外行的术语来说明 VLAN / 10 gb lan 等的创建。如果我能获得有关它的参考文档,那就太好了。 推荐的Greenplum安装是使用私有网络在集群中的节点之间进行通信。只有 Master 主机与您的 LAN 有额外的连接。您需要将 ETL 服务器连接到 Greenplum 集群使用的专用网络。这也可能有帮助:gpdb.docs.pivotal.io/43110/concepts-etl.html 非常感谢乔恩。我想浏览一下文档。然后在测试 ETL 服务器上进行活动。最后,告诉你活动的结果。

以上是关于Pivotal greenplum - talend 的 gpload 问题的主要内容,如果未能解决你的问题,请参考以下文章

Pivotal Greenplum - 增量数据问题

Pivotal HDB - 如何将数据从 HAWQ 内部/外部可读表推送到 Greenplum

如何安装greenplum

greenplum 下载地址

Greenplum-cc-web安装

无法使用 Spark 连接器从 GreenPlum 读取