将spark依赖包传入HDFS_spark.yarn.jar和spark.yarn.archive的使用

Posted yyy-blog

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了将spark依赖包传入HDFS_spark.yarn.jar和spark.yarn.archive的使用相关的知识,希望对你有一定的参考价值。

一、参数说明

启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar,非常耗时;使用spark.yarn.archive可以大大地减少任务的启动时间,整个处理过程如下。

二、spark.yarn.archive使用

1.在本地创建zip文件

[email protected]:~/env/spark$ cd jars/
[email protected]:~/env/spark$ zip spark2.0.0.zip ./*

注:zip包为全量包

2.上传至HDFS并更改权

[email protected]:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -mkdir /tmp/spark-archive
[email protected]:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -put ./spark2.0.0.zip /tmp/spark-archive
[email protected]:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -chmod 775 /tmp/spark-archive/spark2.0.0.zip.zip

3.配置spark-defaut.conf

spark.yarn.archive  hdfs:///tmp/spark-archive/spark2.0.0.zip

三、spark.yarn.jars使用说明

1. 上传依赖jar包

[email protected]:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -mkdir hdfs://bd01/user/asiainfo/jars/
[email protected]:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -put ./spark2.0.0.zip hdfs://bd01/user/asiainfo/jars/
[email protected]:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -chmod 775 hdfs://bd01/user/asiainfo/jars/spark2.0.0.zip.zip

2.配置spark-defaut.conf

spark.yarn.jars=local:/opt/cloudera/parcels/CDH-6.1.0-1.cdh6.1.0.p0.770702/lib/spark/jars/*,local:/opt/cloudera/parcels/CDH-6.1.0-1.cdh6.1.0.p0.770702/lib/spark/hive/*,hdfs://bd01/user/asiainfo/jars/*.jar

注:本地配置local,hdfs标记为hdfs目录即可

 

以上是关于将spark依赖包传入HDFS_spark.yarn.jar和spark.yarn.archive的使用的主要内容,如果未能解决你的问题,请参考以下文章

Spark依赖包加载顺序

Spark submit依赖包管理!

spark-任务提交多个jar包问题(Oozie调度)

用Intellij idea 编写Scala程序Spark2.0.0 依赖jar包如何解决

导入spark程序的maven依赖包时,无法导入,报错Unable to import maven project: See logs for details

在 Spark 执行器节点上安装 Python 依赖项的最简单方法是啥?