将文件/URI并行加载到greenplum中的外部表
Posted
技术标签:
【中文标题】将文件/URI并行加载到greenplum中的外部表【英文标题】:Parallel loading of Files/URIs to external table in greenplum 【发布时间】:2018-06-05 12:03:37 【问题描述】:如果我在greenplum数据库的CREATE EXTERNAL TABLE
中为LOCATION
指定多个URI,它会并行加载文件吗?还是加载整个文件与将文件拆分为多个文件并加载它们没有区别?Official Doc
【问题讨论】:
【参考方案1】:文件按命令按顺序加载。 如果指定多个文件,例如:gpfdist://data/file_*
然后所有这些文件将按顺序加载,同时由所有段加载。
您可以通过将文件拆分到多个 gpfdist 实例来实现更快的并发加载。
例如: gpfdist://data/file_part_1* gpfdist://data/file_part_2*
有关视频示例,请参阅: https://youtu.be/QqzUhTgWPZg?t=4m48s
【讨论】:
这是否意味着如果我在 4 个不同的文件夹上运行 gpfdist 服务并将我的文件分发到这 4 个文件夹,这些文件将并行加载? 是的,就是这个意思。【参考方案2】:多个 gpfdist 实例将以并行方式在定义的位置加载/卸载数据。那才是greenplum db的真正用处
【讨论】:
以上是关于将文件/URI并行加载到greenplum中的外部表的主要内容,如果未能解决你的问题,请参考以下文章
GreenPlum数据的装载与卸载之外部表以及gpfdist工具的使用