使用 s3a 在驱动程序和执行程序中获取火花罐
Posted
技术标签:
【中文标题】使用 s3a 在驱动程序和执行程序中获取火花罐【英文标题】:Using s3a to fetch spark jars in driver and executor 【发布时间】:2016-05-10 00:09:53 【问题描述】:我正在尝试使用驱动程序/执行程序模型在 AWS 上使用 Spark。似乎没有办法设置驱动程序类路径,以便它可以使用 hadoop-aws jar 和 aws-sdk jar 来访问 s3。我想从 s3 中提取我的工作罐子。
似乎我需要将所有这些类添加到 spark 程序集 jar,或者我需要修改 spark-class 脚本以手动将这些 jar 添加到类路径?
是否有任何侵入性较小的方法,即有什么方法可以在配置中的某个地方指定它?
我正在运行 1.6.1 和 hadoop 2.4,但我希望我也可以使用 2.6(同样的问题)。
【问题讨论】:
【参考方案1】:不确定我是否理解正确,但您应该可以根据docs 设置spark.driver.extraClassPath
和/或spark.driver.extraLibraryPath
属性
恕我直言,在使用spark-submit
时指定--jars
命令行选项应该可以实现相同的目标,请参阅spark-submit
中的help output。
【讨论】:
以上是关于使用 s3a 在驱动程序和执行程序中获取火花罐的主要内容,如果未能解决你的问题,请参考以下文章