java - 如何在类似于pyspark的java分区中写入parquet文件?
Posted
技术标签:
【中文标题】java - 如何在类似于pyspark的java分区中写入parquet文件?【英文标题】:How to write parquet file in partition in java similar to pyspark? 【发布时间】:2016-10-25 08:14:20 【问题描述】:我可以像这样将 parquet 文件写入 pyspark 中的分区:
rdd.write
.partitionBy("created_year", "created_month")
.parquet("hdfs:///my_file")
parquet 文件自动分区为 created_year、created_month。如何在java中做同样的事情?我在 ParquetWriter 类中看不到选项。有没有其他类可以做到这一点?
谢谢,
【问题讨论】:
【参考方案1】:你必须将你的RDD转换成DataFrame,然后调用write parquet函数。
df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])
【讨论】:
以上是关于java - 如何在类似于pyspark的java分区中写入parquet文件?的主要内容,如果未能解决你的问题,请参考以下文章
PySpark:如何添加数据来自查询的列(类似于每行的子查询)