如何在 spark scala 中为单列创建数据框

Posted

技术标签:

【中文标题】如何在 spark scala 中为单列创建数据框【英文标题】:How to Create Dataframe in spark scala for single coumn 【发布时间】:2017-05-18 16:14:51 【问题描述】:

我是 spark scala 的新手。 我有包含 10 列的数据框,但我想为该数据框再添加一列,该列是日期格式,日期将由随机数生成。

import java.util.Date
import java.util.ArrayList
import java.text.SimpleDateFormat

object Datecolumn 
  def main(args: Array[String]) 



  val dateFormat = new SimpleDateFormat("yyyy/MM/dd HH:mm:ss");
val date = new Date();
//println(dateFormat.format(date));

  val li= new ArrayList[String]
  for(i<- 1 to 10)
  
    li.add(dateFormat.format(date))
  


 // val dateColumn =

 val Lii = li.listIterator()
 while(Lii.hasNext())
 
   println(Lii.next())
 

  li.toDF("Date") //.toDF is not a member of Java.util.ArrayList



【问题讨论】:

我没有看到任何火花代码? 是的,它只是一个 Scala 代码,如何为单个列创建 Dataframe 【参考方案1】:
 //Initialise Spark Session
  val spark = SparkSession
    .builder()
    .master("local")
    .appName("ParquetAppendMode")
    .getOrCreate()

  import spark.implicits._

//create a simple dataframe with one column
  val dataFrame = spark.sparkContext.parallelize(1 to 10).toDF("number")

  dataFrame.show

//add another column with current timestamp 
  dataFrame.withColumn("timestamp", unix_timestamp()).show()

如果我理解你的话,希望这会有所帮助!

【讨论】:

以上是关于如何在 spark scala 中为单列创建数据框的主要内容,如果未能解决你的问题,请参考以下文章

在scala spark中为两个不同的数据框创建视图

Scala Spark - 如何减少在单列中包含多列的数据帧?

Spark scala 从列表中选择多列和单列

如何将列表数组合并到单列中并使其适合现有的数据框?

在 spark scala 中为数据帧中的每个组采样不同数量的随机行

如何在 Spark ML 中为分类创建正确的数据框