将文件/URI并行加载到greenplum中的外部表

Posted

技术标签:

【中文标题】将文件/URI并行加载到greenplum中的外部表【英文标题】:Parallel loading of Files/URIs to external table in greenplum 【发布时间】:2018-06-05 12:03:37 【问题描述】:

如果我在greenplum数据库的CREATE EXTERNAL TABLE中为LOCATION指定多个URI,它会并行加载文件吗?还是加载整个文件与将文件拆分为多个文件并加载它们没有区别?Official Doc

【问题讨论】:

【参考方案1】:

文件按命令按顺序加载。 如果指定多个文件,例如:gpfdist://data/file_*

然后所有这些文件将按顺序加载,同时由所有段加载。

您可以通过将文件拆分到多个 gpfdist 实例来实现更快的并发加载。

例如: gpfdist://data/file_part_1* gpfdist://data/file_part_2*

有关视频示例,请参阅: https://youtu.be/QqzUhTgWPZg?t=4m48s

【讨论】:

这是否意味着如果我在 4 个不同的文件夹上运行 gpfdist 服务并将我的文件分发到这 4 个文件夹,这些文件将并行加载? 是的,就是这个意思。【参考方案2】:

多个 gpfdist 实例将以并行方式在定义的位置加载/卸载数据。那才是greenplum db的真正用处

【讨论】:

以上是关于将文件/URI并行加载到greenplum中的外部表的主要内容,如果未能解决你的问题,请参考以下文章

Greenplum loader 不会将数据写入管道文件

GreenPlum数据的装载与卸载之外部表以及gpfdist工具的使用

使用 MapReduce 或 Sqoop 将数据加载到 Greenplum DB

gpfdist vs gpload greenplum

GreenPlum数据的装载与卸载之gpload的使用

Greenplum - 外部表