java - 如何在类似于pyspark的java分区中写入parquet文件?

Posted

技术标签:

【中文标题】java - 如何在类似于pyspark的java分区中写入parquet文件?【英文标题】:How to write parquet file in partition in java similar to pyspark? 【发布时间】:2016-10-25 08:14:20 【问题描述】:

我可以像这样将 parquet 文件写入 pyspark 中的分区:

rdd.write
 .partitionBy("created_year", "created_month")
 .parquet("hdfs:///my_file")

parquet 文件自动分区为 created_year、created_month。如何在java中做同样的事情?我在 ParquetWriter 类中看不到选项。有没有其他类可以做到这一点?

谢谢,

【问题讨论】:

【参考方案1】:

你必须将你的RDD转换成DataFrame,然后调用write parquet函数。

df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])

【讨论】:

以上是关于java - 如何在类似于pyspark的java分区中写入parquet文件?的主要内容,如果未能解决你的问题,请参考以下文章

PySpark:如何添加数据来自查询的列(类似于每行的子查询)

如何在类似于Java的kotlin中声明常量[重复]

java是不是有类似于C#属性的东西? [复制]

java有类似于C#属性的东西吗? [重复]

需要通过类似于 scipy.linalg.eig 的特征值分解在 pyspark 中找到非对称方阵的特征向量

如何添加第三方 Java JAR 文件以在 PySpark 中使用