spark-shell读取parquet文件

Posted mylittlecabin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark-shell读取parquet文件相关的知识,希望对你有一定的参考价值。

1、进入spark-shell窗口

 

2、

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

 

3、

val parquetFile = sqlContext.parquetFile("hdfs://cdp/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

hdfs://cdp是defaultFS,也可以不写,如下:

val parquetFile2 = sqlContext.parquetFile("/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

 

4、

parquetFile.take(30).foreach(println)

技术图片

 

 

技术图片

 

 

参考:https://www.jianshu.com/p/57b20d9d7b4a?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

以上是关于spark-shell读取parquet文件的主要内容,如果未能解决你的问题,请参考以下文章

使用 Impala 在 HDFS 中查询 Parquet 文件

是否可以使用 Dask 和 Fastparquet 阅读器读取手动分区的 Parquet 数据集?

Spark-shell交互式编程

Parquet文件结构笔记

如何使用 spark-shell 读取 .csv 文件

在 JavaScript 前端应用程序上读取大型 CSV 文件