火花，在DataFrame（或RDD）上多次应用过滤器，而没有多余的评估

Question

我有一个Spark DataFrame，需要对父RDD的链接进行大量评估。

val df: DataFrame[(String, Any)] = someMethodCalculatingDF()
val out1 = df.filter(_._1 == "Key1").map(_._2).collect()
val out2 = df.filter(_._1 == "Key2").map(_._2)

out1是非常小的数据（每个分区一个或两行），并已收集以备后用。out2是一个数据帧，将用于生成另一个RDD，稍后再实现。因此，df将被评估两次，这很重。

Caching可能是一个解决方案，但在我的应用程序中不会，因为数据可能真的非常大。内存将溢出。

有什么天才:)谁可以提出另一种绕过冗余评估的方法？