使用 jars 和 Spark 的 sbt-assembly 行为

Posted

技术标签:

【中文标题】使用 jars 和 Spark 的 sbt-assembly 行为【英文标题】:sbt-assembly behaviour with jars and Spark 【发布时间】:2019-11-28 06:28:16 【问题描述】:

我对 sbt 汇编的行为有疑问: 当我使用这个配置时:

  assemblyMergeStrategy in assembly := 
  case PathList("org", "aopalliance", xs@_*) => MergeStrategy.last
  case PathList("javax", "inject", xs@_*) => MergeStrategy.last
  case PathList("javax", "servlet", xs@_*) => MergeStrategy.last
  case PathList("javax", "activation", xs@_*) => MergeStrategy.last
  case PathList("org", "apache", xs@_*) => MergeStrategy.last
  case PathList("com", "google", xs@_*) => MergeStrategy.last
  case PathList("com", "esotericsoftware", xs@_*) => MergeStrategy.last
  case PathList("com", "codahale", xs@_*) => MergeStrategy.last
  case PathList("com", "yammer", xs@_*) => MergeStrategy.last
  case "about.html" => MergeStrategy.rename
  case "META-INF/ECLIPSEF.RSA" => MergeStrategy.last
  case "META-INF/MANIFEST.MF" => MergeStrategy.discard
  case "META-INF/mailcap" => MergeStrategy.last
  case "META-INF/mimetypes.default" => MergeStrategy.last
  case "plugin.properties" => MergeStrategy.last
  case "log4j.properties" => MergeStrategy.last
  case "git.properties" => MergeStrategy.discard
  case x => MergeStrategy.first
  case x =>
    val oldStrategy = (assemblyMergeStrategy in assembly).value
    oldStrategy(x)

我的输出 jar 大约 109MB,它包含 spark 库,即使我将其设置为提供的内容

但是当我使用这个时:

  assemblyMergeStrategy in assembly := 
  case "src/test/resources/library.properties" => MergeStrategy.discard
  case PathList("META-INF", xs@_*) => MergeStrategy.discard
  case x => MergeStrategy.first
  

我的 Jar 大约 10MB。你知道为什么吗?

【问题讨论】:

JAR 只是一个带有classes 和资源的 ZIP。向我们展示已解压的两个 JAR 内容的 ls -la,我们将能够提供更多信息。 【参考方案1】:

在第二种策略中,您将从依赖项 jar 中丢弃所有 META-INF 文件夹(因此这些文件不会复制到远 jar 中)

在任何情况下,您都可以解压缩两个 jar 文件并检查内部内容以进行比较

【讨论】:

以上是关于使用 jars 和 Spark 的 sbt-assembly 行为的主要内容,如果未能解决你的问题,请参考以下文章

如何在Spark提交中使用s3a和Apache spark 2.2(hadoop 2.8)?

使用 jars 和 Spark 的 sbt-assembly 行为

eclipse开发spark应用程序 spark2.1.0 导入哪个jar包

3.2spark集群运行应用之第三方jar的处理方式

Apache Spark:CentOS7下的提交和执行一个官方的jar项目包

Spark 2.1 UDF 未在 Spark Jar 中注册