Spark中的DataFilter与PushedFilter?
Posted
技术标签:
【中文标题】Spark中的DataFilter与PushedFilter?【英文标题】:DataFilter vs PushedFilter in Spark? 【发布时间】:2022-01-24 04:13:17 【问题描述】:b/w DataFilter 与 PushedFilter 有什么区别?
当不使用分区过滤器时,如果发生谓词下推,我希望过滤器转到 PushedFilter。这正在按预期发生。我还在物理计划中找到了DataFilter
。
我想知道查询中的DataFilter
是什么?它与 PushedFilter 有何不同?
【问题讨论】:
【参考方案1】:与将文件读入内存然后应用过滤器(这会浪费 CPU 周期和带宽)相反,可以在从裸机读取文件时过滤数据。这就是 DataFilter。
【讨论】:
“从裸机读取文件时过滤”当我们对数据进行分区时会发生这种情况吗?在这种情况下,DataFilter
和 PushedFilter
都将为空,而我们将拥有 PartitionFilter
。
从 2022 年开始,我将不再发表评论。要么你觉得答案好不好……以上是关于Spark中的DataFilter与PushedFilter?的主要内容,如果未能解决你的问题,请参考以下文章
spark-sql 与 spark-shell REPL 中的 Spark SQL 性能差异
Hadoop中的Shuffle 与 Spark中的Shuffle得区别与联系