尝试使用 DataflowRunner 时出现 ClassNotFound 异常

Posted

技术标签:

【中文标题】尝试使用 DataflowRunner 时出现 ClassNotFound 异常【英文标题】:ClassNotFound exception when attempting to use DataflowRunner 【发布时间】:2017-08-13 17:15:56 【问题描述】:

我正在尝试使用 Apache Beam 0.6.0 在 GCP 上启动 Dataflow 作业。我正在使用 shade 插件编译一个 uber jar,因为我无法使用“mvn:execjava”启动该作业。我包括这个依赖:

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-google-cloud-dataflow-java</artifactId>
  <version>0.6.0-SNAPSHOT</version>
</dependency>

我收到以下异常:

Exception in thread "main" java.lang.IllegalArgumentException: Unknown 'runner' specified 'DataflowRunner', supported pipeline runners [DirectRunner]
    at org.apache.beam.sdk.options.PipelineOptionsFactory.parseObjects(PipelineOptionsFactory.java:1609)
    at org.apache.beam.sdk.options.PipelineOptionsFactory.access$400(PipelineOptionsFactory.java:104)
    at org.apache.beam.sdk.options.PipelineOptionsFactory$Builder.as(PipelineOptionsFactory.java:289)
    at com.disney.dtss.desa.tools.SpannerSinkTest.main(SpannerSinkTest.java:116)
Caused by: java.lang.ClassNotFoundException: DataflowRunner
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:264)
    at org.apache.beam.sdk.options.PipelineOptionsFactory.parseObjects(PipelineOptionsFactory.java:1595)

我还错过了什么吗?

【问题讨论】:

如果 DataflowRunner 未注册,这绝对是预期的输出。你能分享更多关于你的 pom.xml、你的 mvn 调用,或者你的 uber jar 的内容列表以及你是如何调用它的吗? 我遇到了同样的问题。当我通过mvn compile exec:java 启动管道时它工作正常,当我构建 jar 时它失败了。 uberjar 包含必要的类。 【参考方案1】:

试试

mvn compile exec:java -Dexec.mainClass=Yourmain Class -Pdataflow-runner

*最后添加-Pdataflow-runner

【讨论】:

pom.xml 中,如果将依赖项定义为配置文件的一部分,请确保为mvn 命令指定配置文件。 Apache Beam 的默认 WordCount 示例针对 DataflowRunner 执行此操作。如果您不关心配置文件,只需将依赖项定义移动到 pom 文件的 &lt;dependencies&gt; 部分即可。【参考方案2】:

在@Andrew Nguonly's comment 之后,我将DataflowRunner 的依赖项复制到pom.xml 文件中的外部范围(到&lt;dependencies&gt; 标记)。

基本上加了这个:

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-google-cloud-dataflow-java</artifactId>
  <version>$beam.version</version>
  <scope>runtime</scope>
</dependency>

在梁 wordCount 示例中的 pom.xml 处关闭 &lt;/dependencies&gt; 之前。

【讨论】:

对于 VSCode 用户,上述方法可能是最好的选择,因为目前还没有一种干净的方式来切换配置文件:github.com/microsoft/vscode-maven/issues/465

以上是关于尝试使用 DataflowRunner 时出现 ClassNotFound 异常的主要内容,如果未能解决你的问题,请参考以下文章

尝试在 C 中使用 realloc 扩展数组时出现分段错误错误 [关闭]

尝试编译opengl项目时出现c ++未定义的引用错误

尝试使用指向成员函数的指针时出现强制转换问题

尝试从 C# 调用 C++ dll 时出现格式不正确的异常

编译共享库时出现链接错误

尝试从批处理文件运行 PowerShell 命令时出现错误