外部表性能的小文件与大文件

Posted

技术标签:

【中文标题】外部表性能的小文件与大文件【英文标题】:Small files vs large files for external table performance 【发布时间】:2018-07-04 01:51:29 【问题描述】:

我最近实际上在使用 Greenplum 外部表,对此我很好奇:

将外部表的数据分布到大量小文件(小于 100KB)而不是几个大文件(可能几十到几百 MB)中是否存在性能差异?

除了性能方面有什么不同吗?

【问题讨论】:

【参考方案1】:

对于读取:如果您有较小的文件,您可以使用多个 gpfdist 阅读器并行读取文件,可能来自 ETL 主机上的多个文件系统或 I/O 通道。 对于写作:您需要创建多个外部表,每个文件名一个。这会炸毁你的目录。

【讨论】:

以上是关于外部表性能的小文件与大文件的主要内容,如果未能解决你的问题,请参考以下文章

Qt 将样式从外部样式表应用到以编程方式添加的小部件

HTML中CSS外部样式表

外部表的雪花外部阶段文件推荐

HTML中CSS外部样式表

Oracle外部表详解

Netezza 从外部文件导入错误:不支持的外部表引用,无法导出形状