Spark中的DataFilter与PushedFilter?

Posted

技术标签:

【中文标题】Spark中的DataFilter与PushedFilter?【英文标题】:DataFilter vs PushedFilter in Spark? 【发布时间】:2022-01-24 04:13:17 【问题描述】:

b/w DataFilter 与 PushedFilter 有什么区别?

当不使用分区过滤器时,如果发生谓词下推,我希望过滤器转到 PushedFilter。这正在按预期发生。我还在物理计划中找到了DataFilter

我想知道查询中的DataFilter 是什么?它与 PushedFilter 有何不同?

【问题讨论】:

【参考方案1】:

与将文件读入内存然后应用过滤器(这会浪费 CPU 周期和带宽)相反,可以在从裸机读取文件时过滤数据。这就是 DataFilter。

【讨论】:

“从裸机读取文件时过滤”当我们对数据进行分区时会发生这种情况吗?在这种情况下,DataFilterPushedFilter 都将为空,而我们将拥有 PartitionFilter 从 2022 年开始,我将不再发表评论。要么你觉得答案好不好……

以上是关于Spark中的DataFilter与PushedFilter?的主要内容,如果未能解决你的问题,请参考以下文章

使用 ajaxSetup dataFilter 的并行请求

spark-sql 与 spark-shell REPL 中的 Spark SQL 性能差异

Python 如何与 Spark 中的 JVM 交互

Hadoop中的Shuffle 与 Spark中的Shuffle得区别与联系

是否可以将 Spark 中的 data.table 与 Spark Dataframes 一起使用?

生产环境中的 Hive 与 Spark