如何在 Spark 中对包含日期和时间值的列进行排序?

Posted

技术标签:

【中文标题】如何在 Spark 中对包含日期和时间值的列进行排序?【英文标题】:How to sort a column with Date and time values in Spark? 【发布时间】:2016-11-17 12:49:07 【问题描述】:

注意: 我有这个作为火花中的数据框。 此时间/日期值构成数据框中的单个列。

输入:

04-NOV-16 03.36.13.000000000 PM 15 年 11 月 6 日 03.42.21.000000000 下午 15 年 11 月 5 日 03.32.05.000000000 下午 15 年 11 月 6 日 03.32.14.000000000 上午

预期输出:

05-NOV-15 03.32.05.000000000 PM
06-NOV-15 03.32.14.000000000 AM
06-NOV-15 03.42.21.000000000 PM
04-NOV-16 03.36.13.000000000 PM

【问题讨论】:

你尝试过什么吗? 是的。尝试铸造。没有成功。 斯卡拉。由于它是字符串格式,因此尝试转换它。 但是没有成功。 【参考方案1】:

由于这种格式不标准,需要使用unix_timestamp函数解析字符串并转换为时间戳类型:

import org.apache.spark.sql.functions._

// Example data
val df = Seq(
  Tuple1("04-NOV-16 03.36.13.000000000 PM"),
  Tuple1("06-NOV-15 03.42.21.000000000 PM"),
  Tuple1("05-NOV-15 03.32.05.000000000 PM"),
  Tuple1("06-NOV-15 03.32.14.000000000 AM")
).toDF("stringCol")

// Timestamp pattern found in string
val pattern = "dd-MMM-yy hh.mm.ss.S a"

// Creating new DataFrame and ordering
val newDF = df
  .withColumn("timestampCol", unix_timestamp(df("stringCol"), pattern).cast("timestamp"))
  .orderBy("timestampCol")

newDF.show(false)

结果:

+-------------------------------+---------------------+
|stringCol                      |timestampCol         |
+-------------------------------+---------------------+
|05-NOV-15 03.32.05.000000000 PM|2015-11-05 15:32:05.0|
|06-NOV-15 03.32.14.000000000 AM|2015-11-06 03:32:14.0|
|06-NOV-15 03.42.21.000000000 PM|2015-11-06 15:42:21.0|
|04-NOV-16 03.36.13.000000000 PM|2016-11-04 15:36:13.0|
+-------------------------------+---------------------+

有关 unix_timestamp 和其他实用程序函数的更多信息,请参阅here。

时间戳格式的构建可以参考SimpleDateFormatter docs


编辑 1: 正如 pheeleeppoo 所说,您可以直接按表达式排序,而不是创建新列,假设您只想在数据框中保留字符串类型的列:

val newDF = df.orderBy(unix_timestamp(df("stringCol"), pattern).cast("timestamp"))

编辑2:请注意unix_timestamp函数的精度是以秒为单位的,所以如果毫秒真的很重要,可以使用udf:

def myUDF(p: String) = udf(
  (value: String) => 
    val dateFormat = new SimpleDateFormat(p)
    val parsedDate = dateFormat.parse(value)
    new java.sql.Timestamp(parsedDate.getTime())
  
)

val pattern = "dd-MMM-yy hh.mm.ss.S a"
val newDF = df.withColumn("timestampCol", myUDF(pattern)(df("stringCol"))).orderBy("timestampCol")

【讨论】:

@Daniel de Paula:感谢上述日期格式的模式,但这是如何工作的,即使日期是上午或下午? @Shankar 模式中的小写“hh”指定小时应该在 0 到 12 之间。然后,模式中的最后一个“a”指定解析器将找到“AM”或“PM”,然后将定义正确的时间。这是该模式的文档:docs.oracle.com/javase/8/docs/api/java/text/… @DanieldePaula:谢谢你的解释,还有一个问题,实际上转换后的时间戳没有正确显示毫秒,它总是为 0,即使我改变了几毫秒的输入,是什么期待一个? @Shankar unix_timestamp 结果的精度以秒为单位,因此毫秒被截断。如果您真的需要以毫秒为单位的精度,您可能需要一个 udf,或者将数据帧转换为 Dataset[String] 以便您可以使用 map。 @DanieldePaula:谢谢,你的意思是我可以使用 DateTimeFormat 模式并将字符串转换为毫秒的时间戳吗?【参考方案2】:

您也可以在将 string 转换为 timestamp 后使用 sort 函数:

   df.sort(unix_timestamp(df("dateColumn"), "dd-MMM-yy hh.mm.ss.S a").cast("timestamp"))
     .show(false)

【讨论】:

与我的回答几乎没有区别。 orderBysort基本相同,区别在于第一个可能用在spark withColumn 中使用。 事实上,这是我的目标。 看起来重点在于 sort 功能。此外,模式不正确,大写 H 表示 24 小时格式。

以上是关于如何在 Spark 中对包含日期和时间值的列进行排序?的主要内容,如果未能解决你的问题,请参考以下文章

Spark SQL中Dataframe join操作含null值的列

如何在 Python 中对包含 TRUE/FALSE 值的数据集执行聚类?

如何在pyspark中对一组列进行分桶?

将包含多种字符串日期格式的列转换为 Spark 中的 DateTime

如何在熊猫 DataFrame 中对连续值进行分组

在 BigQuery 中对具有 DateTime 值的字符串字段进行范围查询