Spark 基础操作

Posted linkworld

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark 基础操作相关的知识,希望对你有一定的参考价值。

1. Spark 基础

2. Spark Core

3. Spark SQL

4. Spark Streaming

5. Spark 内核机制

6. Spark 性能调优

1. Spark 基础

1.1 Spark 中的相应组件

技术图片

1.2 Standalone 模式安装

// 1. 准备安装包(见下方参考资料): spark-2.1.3-bin-hadoop2.7.tgz

// 2. 修改配置文件
// 2.1 spark-env.sh.template
mv spark-env.sh.template spark-env.sh
SPARK_MASTER_HOST=IP地址
SPARK_MASTER_PORT=7077

// 3. 启动
sbin/start-all.sh

// 4. 浏览器访问
http://IP地址:8080

// 5. 测试官方案例
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100

// 6. 使用 Spark Shell 测试 WordCount
bin/spark-shell --master spark://10.110.147.193:7077

sc.textFile("./RELEASE").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

1.2.1 提交应用程序概述

  1. bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100
    • --class: 应用程序的启动类,例如,org.apache.spark.examples.SparkPi;
    • --master: 集群的master URL;
    • deploy-mode: 是否发布你的驱动到worker节点(cluster)或者作为一个本地客户端(client);
    • --conf: 任意的Spark配置属性,格式:key=value,如果值包含空格,可以加引号"key=value";
    • application-jar:打包好的应用 jar,包含依赖,这个URL在集群中全局可见。比如hdfs://共享存储系统,如果是file://path,那么所有节点的path都包含同样的jar;
    • application-arguments: 传给main()方法的参数;

1.3 JobHistoryServer 配置

  1. 修改spark-defaults.conf.template名称:mv spark-defaults.conf.template spark-defaults.conf;
  2. 修改spark-defaults.conf文件,开启 Log:
    • spark.eventLog.enabled true;
    • spark.eventLog.dir hdfs://IP地址:9000/directory;
    • 注意:HDFS 上的目录需要提前存在;
  3. 修改 spark-env.sh 文件,添加如下配置:
    • export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://IP地址:9000/directory";
  4. 开启历史服务:sbin/start-history-server.sh;
  5. 执行上面的程序:org.apache.spark.examples.SparkPi;
  6. 访问:http//IP地址:4000;

1.4 Spark HA 配置

  1. zookeeper 正常安装并启动;
  2. 修改 spark-env.sh 文件,添加如下配置:
    • 注释掉:
      • SPARK_MASTER_HOST=IP地址;
      • SPARK_MASTER_PORT=7077
    • export SPARK_DEAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=IP地址1, IP地址2, IP地址3 -Dspark.deploy.zookeeper.dir=/spark"

1.5 Yarn 模式安装

以上是关于Spark 基础操作的主要内容,如果未能解决你的问题,请参考以下文章

计算框架 Spark 基础之 RDD 操作

学习笔记Spark—— Spark SQL应用—— Spark DataFrame基础操作

学习笔记Spark—— Spark SQL应用—— Spark DataSet基础操作

Scala实战高手****第6课 :零基础实战Scala集合操作及Spark源码解析

[Spark快速大数据分析]Spark基础

练习记录--总结Spark基础操作常用的Shell命令