RDDDF和DS的共性与区别

Posted dretrtg

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RDDDF和DS的共性与区别相关的知识,希望对你有一定的参考价值。

  共性:

    1、都是spark平台下的分布式弹性数据集

    2、都有惰性机制,创建、转换如map操作时不会立即执行,遇到foreach等Action算子时才开始运算。

    3、都会自动缓存计算

    4、都有partition概念

  区别:

    1、RDD不支持sparkSQL操作

    2、DF每一行类型固定为Row,只有通过解析才能获取值。如 line.getAs[String]("col1")

    3、DF和DS支持sparkSQL

    4、DF和DS支持方便地保存文件格式,可以直接指定。

    5、DF每一行类型不固定,所以在Scala中用case class作模式匹配来校正

    6、DS效率最高

以上是关于RDDDF和DS的共性与区别的主要内容,如果未能解决你的问题,请参考以下文章

Webpack与GulpGrunt共性和区别

inline-block和float的共性和区别

inline-block和float的共性和区别

inline-block和float的共性和区别

spark rdd df dataset

java 抽象类和接口的区别