3.Spark 操作

Posted 胡杨..

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了3.Spark 操作相关的知识,希望对你有一定的参考价值。

基于centos7 ,hadoop2.7.3, spark-2.4.4-bin-hadoop2.7.tgz

目录:

一.spark shell

在spark shell中编写wordcount程序读取本地文件

1、准备数据源(创建目录,创建文件)

2.代码:

--注意修改文件地址--
sc.textFile("/opt/spark/spark-2.4.4-bin-hadoop2.7/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect

二. 读取hdfs文件

1.在hadoop创建目录和文件

以上是关于3.Spark 操作的主要内容,如果未能解决你的问题,请参考以下文章

spark操作kudu,出现异常java.lang.ClassNotFoundException: org.apache.kudu.spark.kudu.DefaultSource

spark操作kudu,出现异常java.lang.ClassNotFoundException: org.apache.kudu.spark.kudu.DefaultSource

spark join操作

3.4 Spark RDD运行架构

3.9 Spark 键值对RDD编程

Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)