如何以下拉格式存储数据框的输出

Posted

技术标签:

【中文标题】如何以下拉格式存储数据框的输出【英文标题】:How to strore Output of data frame in dropdown format 【发布时间】:2018-01-08 10:41:14 【问题描述】:

我的任务是每天创建集群报告。我可以通过 Scala 代码读取每个作业的作业 ID 和状态。但我无法以下拉格式存储每个日期的数据框输出。

 Current DataFrame Output:
   Date    |  Job_Id | job_Status | Run_Time
   20180101|123      |Successful  |1m 
   20180102|234      |fail        |0s

 Required DataFrame Output
 Date
 20180101
     |_123
     |_Successful
     |_1m

 20180102
     |_234
     |_fail
     |_0s

每天有 100 个作业在运行。我想为此创建报告。

【问题讨论】:

Spark 是一个数据分析框架,没有任何 UI。在该上下文中引用 UI 下拉元素没有多大意义,也无助于尝试回答您的问题的人。 【参考方案1】:

如果你可以使用saveAsTextFile使用mkstring函数写入文件,这里是一个简单的例子

  val d = Seq(
    ("20180101","123","Successful", "1m"),
    ("20180102","234","fail", "0s")
  ).toDF("Date","Job_Id","job_Status","Run_Time")

  d.rdd.map(x => x.mkString("\n--"))
   .saveAsTextFile("outputFile")

输出:

20180101
--123
--Successful
--1m
20180102
--234
--fail
--0s

但我希望你可以保存成任何其他格式,以便以后更容易阅读。

希望这会有所帮助!

【讨论】:

感谢您的解决方案。我需要创建下拉输出。就像我点击特定日期一样,它应该会打开它的状态。

以上是关于如何以下拉格式存储数据框的输出的主要内容,如果未能解决你的问题,请参考以下文章

20200113(数据加载存储和文件格式)

使用 CSV 格式的框存储 Tensorflow 对象检测 API 图像输出

如何将 numpy 数组存储在 Pandas 数据框的列中?

如何将 numpy 数组存储在 Pandas 数据框的列中?

如何匹配两个数据框的架构

如何计算不同数据框的列之间的数值差异?