gpfdist vs gpload greenplum

Posted

技术标签:

【中文标题】gpfdist vs gpload greenplum【英文标题】: 【发布时间】:2017-08-09 07:51:40 【问题描述】:

我是第一次设置 greenplum。我正在关注documentation。我想设置从 sql 到 greenplum 数据库的连接。目前正在找出实现这一目标的最佳方法。我遇到了 gpfdist 和 gpload。

两者有何不同?由于两者都使用外部表,因此都在从属节点上工作并用于并行加载。那么使用一个比另一个有什么优势吗?

【问题讨论】:

gpload 是一个自动使用外部表和 gpfdist 的工具。您可以直接使用 gpfdist 或通过 gpload 使用。基本上是一样的。 【参考方案1】:

回答您关于“我想设置从 sql 到 greenplum 数据库的连接”的问题... 您指的是哪个 SQL 数据库不明确。

此外,没有可用于将非 greenplum 数据库连接到 greenplum 数据库的直接连接驱动程序。

但是,如果您想将数据从 Oracle 迁移到 Greenplum,那么您可以使用 Informatica 的 fastclone 工具。

回答关于 gpfdist 和 gpload 的问题的第二部分。 GPFDIST 是一个在主机系统上运行的文件分布式进程,它为许多段并行提供文件。在初始化外部表以从文件读取/写入时,您需要指定哪个进程将为文件提供服务,在您的情况下它将是 GPFDIST。还有其他进程,如 FTP、GPHDFS、HTTP。

GPLOAD 是一个包装实用程序,它通过自动创建 gpfdist 进程和外部表使您的工作更轻松。

还要注意 GPLOAD 只能创建可读的外部表。

【讨论】:

【参考方案2】:

gpfdist n gpload 或相同。在 gpfdist 中,您手动执行此操作,而在 gpload 中,您可以通过 config(yaml 文件)文件中的 maiking 条目自动执行活动。 GPLOAD 是 GPFDIST 的包装器。因此,当您通过 gpload 加载数据时,它将仅在内部使用 gpfdist。

如果您想将数据从任何其他 RDBMS 加载/迁移到 Greenplum,并且您正在使用任何 ETL 或迁移工具,它将使用正常的复制命令,并且如果您启用 gpload(现在是最新版本中的几天),它将使用正常的复制命令并且在加载/迁移时大多数 ETL 工具和迁移工具在您将数据迁移/加载到 Greenplum 时都支持 gpload 功能)它将通过内部使用 gpfdist 以并行方式加载数据。

【讨论】:

以上是关于gpfdist vs gpload greenplum的主要内容,如果未能解决你的问题,请参考以下文章

GreenPlum数据的装载与卸载之gpload的使用

水壶 gpload 失败错误:权限被拒绝:没有创建可读 gpfdist(s) 外部表的权限

greenplum 中的 gpload 实用程序

Greenplum 实时数据仓库实践——Greenplum监控与运维

Greenplum 实时数据仓库实践——Greenplum监控与运维

基于windows测试gpload时出错