外部表性能的小文件与大文件
Posted
技术标签:
【中文标题】外部表性能的小文件与大文件【英文标题】:Small files vs large files for external table performance 【发布时间】:2018-07-04 01:51:29 【问题描述】:我最近实际上在使用 Greenplum 外部表,对此我很好奇:
将外部表的数据分布到大量小文件(小于 100KB)而不是几个大文件(可能几十到几百 MB)中是否存在性能差异?
除了性能方面有什么不同吗?
【问题讨论】:
【参考方案1】:对于读取:如果您有较小的文件,您可以使用多个 gpfdist 阅读器并行读取文件,可能来自 ETL 主机上的多个文件系统或 I/O 通道。 对于写作:您需要创建多个外部表,每个文件名一个。这会炸毁你的目录。
【讨论】:
以上是关于外部表性能的小文件与大文件的主要内容,如果未能解决你的问题,请参考以下文章