使用 s3a 在驱动程序和执行程序中获取火花罐

Posted 2023-03-31

技术标签:

【中文标题】使用 s3a 在驱动程序和执行程序中获取火花罐【英文标题】：Using s3a to fetch spark jars in driver and executor 【发布时间】：2016-05-10 00:09:53 【问题描述】：

我正在尝试使用驱动程序/执行程序模型在 AWS 上使用 Spark。似乎没有办法设置驱动程序类路径，以便它可以使用 hadoop-aws jar 和 aws-sdk jar 来访问 s3。我想从 s3 中提取我的工作罐子。

似乎我需要将所有这些类添加到 spark 程序集 jar，或者我需要修改 spark-class 脚本以手动将这些 jar 添加到类路径？

是否有任何侵入性较小的方法，即有什么方法可以在配置中的某个地方指定它？

我正在运行 1.6.1 和 hadoop 2.4，但我希望我也可以使用 2.6（同样的问题）。

【问题讨论】：

【参考方案1】：

不确定我是否理解正确，但您应该可以根据docs 设置spark.driver.extraClassPath 和/或spark.driver.extraLibraryPath 属性

恕我直言，在使用spark-submit 时指定--jars 命令行选项应该可以实现相同的目标，请参阅spark-submit 中的help output。

【讨论】：

以上是关于使用 s3a 在驱动程序和执行程序中获取火花罐的主要内容，如果未能解决你的问题，请参考以下文章