使用 jars 和 Spark 的 sbt-assembly 行为
Posted
技术标签:
【中文标题】使用 jars 和 Spark 的 sbt-assembly 行为【英文标题】:sbt-assembly behaviour with jars and Spark 【发布时间】:2019-11-28 06:28:16 【问题描述】:我对 sbt 汇编的行为有疑问: 当我使用这个配置时:
assemblyMergeStrategy in assembly :=
case PathList("org", "aopalliance", xs@_*) => MergeStrategy.last
case PathList("javax", "inject", xs@_*) => MergeStrategy.last
case PathList("javax", "servlet", xs@_*) => MergeStrategy.last
case PathList("javax", "activation", xs@_*) => MergeStrategy.last
case PathList("org", "apache", xs@_*) => MergeStrategy.last
case PathList("com", "google", xs@_*) => MergeStrategy.last
case PathList("com", "esotericsoftware", xs@_*) => MergeStrategy.last
case PathList("com", "codahale", xs@_*) => MergeStrategy.last
case PathList("com", "yammer", xs@_*) => MergeStrategy.last
case "about.html" => MergeStrategy.rename
case "META-INF/ECLIPSEF.RSA" => MergeStrategy.last
case "META-INF/MANIFEST.MF" => MergeStrategy.discard
case "META-INF/mailcap" => MergeStrategy.last
case "META-INF/mimetypes.default" => MergeStrategy.last
case "plugin.properties" => MergeStrategy.last
case "log4j.properties" => MergeStrategy.last
case "git.properties" => MergeStrategy.discard
case x => MergeStrategy.first
case x =>
val oldStrategy = (assemblyMergeStrategy in assembly).value
oldStrategy(x)
我的输出 jar 大约 109MB,它包含 spark 库,即使我将其设置为提供的内容
但是当我使用这个时:
assemblyMergeStrategy in assembly :=
case "src/test/resources/library.properties" => MergeStrategy.discard
case PathList("META-INF", xs@_*) => MergeStrategy.discard
case x => MergeStrategy.first
我的 Jar 大约 10MB。你知道为什么吗?
【问题讨论】:
JAR 只是一个带有class
es 和资源的 ZIP。向我们展示已解压的两个 JAR 内容的 ls -la
,我们将能够提供更多信息。
【参考方案1】:
在第二种策略中,您将从依赖项 jar 中丢弃所有 META-INF 文件夹(因此这些文件不会复制到远 jar 中)
在任何情况下,您都可以解压缩两个 jar 文件并检查内部内容以进行比较
【讨论】:
以上是关于使用 jars 和 Spark 的 sbt-assembly 行为的主要内容,如果未能解决你的问题,请参考以下文章
如何在Spark提交中使用s3a和Apache spark 2.2(hadoop 2.8)?
使用 jars 和 Spark 的 sbt-assembly 行为
eclipse开发spark应用程序 spark2.1.0 导入哪个jar包