将数据保存到HDFS的格式是什么?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了将数据保存到HDFS的格式是什么?相关的知识,希望对你有一定的参考价值。
创建DataFrame后,我可以将其保存为avro,csv或镶木地板格式。
数据帧或rdd中是否还有其他格式可用于在Hadoop HDFS中保存数据?
答案
Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
有了它,您可以使用HDFS以任何格式存储虚拟文件,包括avro,CSV,镶木地板等。
在Spark中,您可以使用format方法指定DataFrame的格式,而使用save方法指定存储中的位置。
format(source:String):DataFrameWriter [T]指定基础输出数据源。内置选项包括“镶木地板”,“json”等。
save(path:String):Unit将DataFrame的内容保存在指定的路径中。
您还可以使用快捷方式使用特定于格式的方法(如json(path: String)
,parquet(path: String)
或类似方法)定义存储上DataFrame的格式和路径。
另一答案
- RDD save* pyspark.RDD.saveAsHadoopDataset pyspark.RDD.saveAsHadoopFile pyspark.RDD.saveAsNewAPIHadoopDataset pyspark.RDD.saveAsNewAPIHadoopFile pyspark.RDD.saveAsPickleFile pyspark.RDD.saveAsSequenceFile pyspark.RDD.saveAsTextFile
- DataFrame save pyspark.sql.DataFrame.save pyspark.sql.DataFrameWriter.save pyspark.sql.DataFrame.saveAsParquetFile pyspark.sql.DataFrame.saveAsTable pyspark.sql.DataFrameWriter.saveAsTable
最后但并非最不重要的...
- Spark Dataframe Docs更好地了解如何使用DataFrame Writer。
以上是关于将数据保存到HDFS的格式是什么?的主要内容,如果未能解决你的问题,请参考以下文章