将数据保存到HDFS的格式是什么?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了将数据保存到HDFS的格式是什么?相关的知识,希望对你有一定的参考价值。

创建DataFrame后,我可以将其保存为avro,csv或镶木地板格式。

数据帧或rdd中是否还有其他格式可用于在Hadoop HDFS中保存数据?

答案

来自What Is Apache Hadoop?

Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。

有了它,您可以使用HDFS以任何格式存储虚拟文件,包括avro,CSV,镶木地板等。


在Spark中,您可以使用format方法指定DataFrame的格式,而使用save方法指定存储中的位置。

format(source:String):DataFrameWriter [T]指定基础输出数据源。内置选项包括“镶木地板”,“json”等。

save(path:String):Unit将DataFrame的内容保存在指定的路径中。

您还可以使用快捷方式使用特定于格式的方法(如json(path: String)parquet(path: String)或类似方法)定义存储上DataFrame的格式和路径。

另一答案
  • RDD save* pyspark.RDD.saveAsHadoopDataset pyspark.RDD.saveAsHadoopFile pyspark.RDD.saveAsNewAPIHadoopDataset pyspark.RDD.saveAsNewAPIHadoopFile pyspark.RDD.saveAsPickleFile pyspark.RDD.saveAsSequenceFile pyspark.RDD.saveAsTextFile
  • DataFrame save pyspark.sql.DataFrame.save pyspark.sql.DataFrameWriter.save pyspark.sql.DataFrame.saveAsParquetFile pyspark.sql.DataFrame.saveAsTable pyspark.sql.DataFrameWriter.saveAsTable

最后但并非最不重要的...

以上是关于将数据保存到HDFS的格式是什么?的主要内容,如果未能解决你的问题,请参考以下文章

将数据帧的顺序保存到 HDFS

将数据作为文本文件从 spark 保存到 hdfs

如果我想从另一个片段中添加书签,为啥我的书签单词没有保存到 sqlite 数据库?

如何在片段中访问 SQLite 数据到 ListView

为啥 HBase 需要 HDFS?

从单个按钮从多个片段中提取数据