使用 s3a 在驱动程序和执行程序中获取火花罐

Posted

技术标签:

【中文标题】使用 s3a 在驱动程序和执行程序中获取火花罐【英文标题】:Using s3a to fetch spark jars in driver and executor 【发布时间】:2016-05-10 00:09:53 【问题描述】:

我正在尝试使用驱动程序/执行程序模型在 AWS 上使用 Spark。似乎没有办法设置驱动程序类路径,以便它可以使用 hadoop-aws jar 和 aws-sdk jar 来访问 s3。我想从 s3 中提取我的工作罐子。

似乎我需要将所有这些类添加到 spark 程序集 jar,或者我需要修改 spark-class 脚本以手动将这些 jar 添加到类路径?

是否有任何侵入性较小的方法,即有什么方法可以在配置中的某个地方指定它?

我正在运行 1.6.1 和 hadoop 2.4,但我希望我也可以使用 2.6(同样的问题)。

【问题讨论】:

【参考方案1】:

不确定我是否理解正确,但您应该可以根据docs 设置spark.driver.extraClassPath 和/或spark.driver.extraLibraryPath 属性

恕我直言,在使用spark-submit 时指定--jars 命令行选项应该可以实现相同的目标,请参阅spark-submit 中的help output。

【讨论】:

以上是关于使用 s3a 在驱动程序和执行程序中获取火花罐的主要内容,如果未能解决你的问题,请参考以下文章

重新启动火花流应用程序的最佳方法是啥?

火花避免收集尽可能

本地主机上丢失的执行程序驱动程序:执行程序心跳超时

如何在火花中对每个执行器执行一次操作

collect() 后如何清除火花驱动程序内存

卡夫卡火花流工作有许多活跃的工作