如何在 Apache-Spark 2.x 中使用 java 进行增量序列

Posted

技术标签:

【中文标题】如何在 Apache-Spark 2.x 中使用 java 进行增量序列【英文标题】:How todo an incremental sequence with java in Apache-Spark 2.x 【发布时间】:2017-08-08 11:55:40 【问题描述】:

如何在 Apache-Spark 2.x 中使用 java 执行 增量序列 DataFrame ||临时表 .

换句话说,ApacheSpark->Sql->java 中 monotonically_increasing_id() 函数的等价物是什么 || API->Java

【问题讨论】:

【参考方案1】:

使用 Scala:

val dataFrame1 = dataFrame0.withColumn("index",monotonically_increasing_id())

使用 java

import org.apache.spark.sql.functions;
Daraset<Row> dataFrame1 = dataFrame0.withColumn("index",functions.monotonically_increasing_id());

【讨论】:

以上是关于如何在 Apache-Spark 2.x 中使用 java 进行增量序列的主要内容,如果未能解决你的问题,请参考以下文章

Apache-Spark 作为日志存储

通过 Apache-Spark 从 AWS S3 加载数据

在 Bluemix Apache-Spark 服务上运行的 Spark 应用程序中连接到 postgresql db

使用 Apache-Spark 到 Redshift 的 MongoDB 数据管道

为啥 Apache-Spark - Python 在本地比 pandas 慢?

Apache-Spark 的 GBT 和 sklearn 的 AUC 差异