Scala Spark - 从简单的数据框创建嵌套的 json 输出

Posted

技术标签:

【中文标题】Scala Spark - 从简单的数据框创建嵌套的 json 输出【英文标题】:Scala Spark - creating nested json output from simple dataframe 【发布时间】:2016-07-04 15:25:47 【问题描述】:

感谢您回来。但我面临的问题是在将这些结构写入嵌套 json 时。不知何故,“tojson”不起作用,只是跳过了嵌套字段,导致总是扁平结构。如何将嵌套的 json 格式写入 HDFS?

【问题讨论】:

How to add a new Struct column to a DataFrame的可能重复 【参考方案1】:

您应该从必须嵌套在一起的字段中创建结构字段。 下面是一个工作示例: 假设您有一个包含公司名称、员工和部门名称的 csv 格式的员工数据,并且您希望以 json 格式列出每个公司每个部门的所有员工。以下是相同的代码。

  import java.util.List;
  import org.apache.spark.sql.Dataset;
  import org.apache.spark.sql.Row;
  import org.apache.spark.sql.RowFactory;
  import org.apache.spark.sql.SparkSession;
  import org.apache.spark.sql.api.java.UDF2;
  import org.apache.spark.sql.types.DataTypes;
  import org.apache.spark.sql.types.StructField;

  import scala.collection.mutable.WrappedArray;
public class JsonExample 
public static void main(String [] args)
 
    SparkSession sparkSession = SparkSession
              .builder()
              .appName("JsonExample")
              .master("local")
              .getOrCreate();

    //read the csv file
    Dataset<Row> employees = sparkSession.read().option("header", "true").csv("/tmp/data/emp.csv");
    //create the temp view
    employees.createOrReplaceTempView("employees");

    //First , group the employees based on company AND department 
    sparkSession.sql("select company,department,collect_list(name) as department_employees from employees group by company,department").createOrReplaceTempView("employees");
    /*Now create a struct by invoking the UDF create_struct. 
     * The struct will contain department and the list of employees 
    */
    sparkSession.sql("select company,collect_list(struct(department,department_employees)) as department_info from employees group by company").toJSON().show(false);



 

您可以在我的博客上找到相同的示例: http://baahu.in/spark-how-to-generate-nested-json-using-dataset/

【讨论】:

以上是关于Scala Spark - 从简单的数据框创建嵌套的 json 输出的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Apache Spark 和 Scala 创建嵌套 json

spark scala将嵌套的数据框转换为嵌套的数据集

Spark Scala,如何检查数据框中是不是存在嵌套列

我如何将平面数据框转换为 spark(scala 或 java)中的嵌套 json

如何在spark scala数据框中更新嵌套列的xml值

如何使用 Scala 在 Spark 中爆炸嵌套结构