为啥创建了这么多 Parquet 文件?我们可以不限制 Parquet 输出文件吗?

Posted

技术标签:

【中文标题】为啥创建了这么多 Parquet 文件?我们可以不限制 Parquet 输出文件吗?【英文标题】:Why so many Parquet files created? Can we not limit Parquet output files?为什么创建了这么多 Parquet 文件?我们可以不限制 Parquet 输出文件吗? 【发布时间】:2017-01-03 05:41:45 【问题描述】:

为什么在 sparkSql 中创建了这么多 Parquet 文件?我们可以不限制 Parquet 输出文件吗?

【问题讨论】:

请更好地解释您的问题。你是如何创建文件的?请提供一个完整的最小可验证示例:***.com/help/mcve。还请解释一下您到底想做什么?为什么文件数量有问题?这里有目标号码吗?也许问题出在其他问题上(meta.stackexchange.com/questions/66377/what-is-the-xy-problem) 感谢您的回复,我有用 spark 1.6 编写的 ETL 作业,我们要存储翻译数据。我们的要求非常简单,我们想从这个 parquet 文件中搜索一个字符串(大小大约超过 200GB,snappy)。对于写作,我们使用以下代码: test.saveAsParquetFile(locationfile); Parquet 使用这种方法创建了很多文件,如果我们有很多文件,这很容易理解,所以搜索会花费一些时间,因为 IO 会增加。我们需要执行一些优化技术,以便我们的搜索能够更好地执行。 【参考方案1】:

一般来说,当您写入 parquet 时,它会为每个分区写入一个(或多个取决于各种选项)文件。如果你想减少文件的数量,你可以在写入之前在数据帧上调用 coalesce。例如:

df.coalesce(20).write.parquet(filepath)

当然,如果您有多种选择(例如 partitionBy),文件的数量可能会急剧增加。

另外请注意,如果您合并到非常少的分区,这可能会变得非常慢(既是因为在分区之间复制数据,也是因为如果您合并到一个足够小的数量会降低并行度)。如果单个分区中的数据太大,也可能会出现 OOM 错误(当您合并分区时自然会变大)。

有几点需要注意:

saveAsParquetFile 自 1.4.0 版起已弃用。请改用 write.parquet(path)。 根据您的用例,在 parquet 文件中搜索特定字符串可能不是最有效的方法。

【讨论】:

在使用 SparkSql 编写 parquetfile 时,谁能告诉我默认的原始组大小是多少?

以上是关于为啥创建了这么多 Parquet 文件?我们可以不限制 Parquet 输出文件吗?的主要内容,如果未能解决你的问题,请参考以下文章

为啥在索引 Parquet 文件上计算形状如此缓慢?

为啥 Parquet 文件中的数据在 BigQuery 表中加载后与源数据不匹配

在 Impala 中使用外部创建的 Parquet 文件

为啥聚合的 Spark Parquet 文件比原始文件大?

为啥聚合的 Spark Parquet 文件比原始文件大?

VisualStudio版本更新了这么多,为啥不把附带的webbrowser控件升级下,搞个支持chrome内核的?