我是不是必须明确使用 Dataframe 的方法才能利用 Dataset 的优化？ [复制]

Posted 2023-04-15

技术标签:

【中文标题】我是不是必须明确使用 Dataframe 的方法才能利用 Dataset 的优化？ [复制]【英文标题】：Do I have to explicitly use Dataframe's methods to take advantage of Dataset's optimization? [duplicate]我是否必须明确使用 Dataframe 的方法才能利用 Dataset 的优化？ [复制] 【发布时间】：2017-02-23 06:28:09 【问题描述】：

要利用Dataset 的优化，我是否必须显式使用Dataframe's 方法（例如df.select(col("name"), col("age") 等）或调用任何数据集的方法 - 即使是类似 RDD 的方法（例如 filter、map 等）也可以进行优化？

【问题讨论】：

【参考方案1】：

Dataframe 优化通常分为 3 种风格：

Tungsten 内存管理催化剂查询优化全阶段代码生成

钨合金内存管理

在定义 RDD[myclass] 时，spark 并没有真正理解 myclass 是什么。这意味着通常每一行都将包含该类的一个实例。

这有两个问题。

首先是对象的大小。 java 对象有开销。例如，一个包含两个简单整数的案例类。执行 1000000 个实例的序列并将其转换为 RDD 大约需要 26MB，而对数据集/数据帧执行相同操作需要大约 2MB。

此外，当在数据集/数据帧中完成时，此内存不由垃圾收集管理（它在内部由 spark 管理为不安全内存），因此在 GC 性能方面的开销较小。

Dataset 享有与 DataFrame 相同的内存管理优势。也就是说，在进行数据集操作时，将数据从内部（行）数据结构转换为案例类会产生性能开销。

催化剂查询优化