覆盖和附加到镶木地板有啥区别

Posted

技术标签:

【中文标题】覆盖和附加到镶木地板有啥区别【英文标题】:What is difference between overwrite and append to parquet覆盖和附加到镶木地板有什么区别 【发布时间】:2018-12-26 15:57:00 【问题描述】:

在火花中追加和覆盖到镶木地板有什么区别。 我正在处理大量数据,例如 10 天。目前我正在使用“追加”方法将每日日志处理成镶木地板文件,并根据日期对数据进行分区。但是我面临的问题是日常数据也非常庞大并且需要花费大量时间,在使用 EMR 集群处理数据时也会导致 CPU 使用率很高。这使我的工作变得非常缓慢和昂贵。所以我正在寻找一种可以进一步拆分数据并将数据合并到日集群的方法。

【问题讨论】:

标题和正文不匹配。 【参考方案1】:

请参阅 spark SaveMode 文档 https://spark.apache.org/docs/latest/api/java/index.html

【讨论】:

以上是关于覆盖和附加到镶木地板有啥区别的主要内容,如果未能解决你的问题,请参考以下文章

如何附加到镶木地板文件以及它如何影响分区?

无法将数据附加到镶木地板 [FileAlreadyExists 异常]

JSON Schema 中的附加项和附加属性有啥区别?

Hybris 中的扩展和附加组件有啥区别

无法将数据框保存到镶木地板 pyspark

将rdd保存到镶木地板文件scala