写入 Big Query 时数据流作业失败 - 未找到 JSON 文件

Posted

技术标签:

【中文标题】写入 Big Query 时数据流作业失败 - 未找到 JSON 文件【英文标题】:Dataflow job failed when writing to Big Query - JSON file not found 【发布时间】:2015-10-27 00:56:17 【问题描述】:

我们最近遇到了一个 Dataflow 作业失败,因为它找不到要加载到 Big Query 的 json 文件。我的理解是json文件是由Dataflow生成的,这是一个意外的状态。

该作业已每天运行近一年,这是我们第一次看到此错误。随后的运行也成功了。

2015 年 10 月 26 日下午 3:13:32 S15:(1c654a773802760a):工作流程失败。原因:(1c654a773802735f):BigQuery 导入作业“dataflow_job_11909924374132686736”失败。原因:(1c654a77380270b4):项目“project_name”中的 BigQuery 作业“dataflow_job_11909924374132686736”完成错误:作业错误:未找到:Google 存储文件 gs://cdf/binaries/denormailization/11909924374132684847/-00081-of-00120 .json,错误:未找到:Google 存储文件 gs://cdf/binaries/denormailization/11909924374132684847/-00081-of-00120.json

职位编号:2015-10-25_21_01_46-11909924374132686437

【问题讨论】:

嘿!你解释这个的方式,这听起来更像是一个问题,而不是你可以在 Stack 上解决的问题。我建议在这里发帖到 Dataflow 用户语音论坛:googlecloudplatform.uservoice.com/forums/302628-dataflow/… Dataflow 通过写入临时文件然后运行 ​​BigQuery 导入作业将数据加载到 BigQuery 表中,将有界 PCollections 写入 BigQuery。看到文件丢失是非常出乎意料的。我们正在内部调查,看看为什么会发生这种情况。如果您再次看到它,请告诉我们。 感谢@Frances,我们从那以后就没有看到它了,但如果我们看到了,会告诉你的。 【参考方案1】:

可能是丢失的文件。

未找到:Google 存储文件 gs://cdf/binaries/denormailization/11909924374132684847/-00081-of-00120.json

【讨论】:

以上是关于写入 Big Query 时数据流作业失败 - 未找到 JSON 文件的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Big Query 中安排每日插入作业 [重复]

Big Query 作业的 Python 脚本配置需要 sourceUri 值,但没有 sourceUri

Big Query 未成功执行

使用 Spark Java 在 Big Query 中写入 Date 数据类型时出现问题

处理使用 docker 向 google big query 读取和写入数据的 python 脚本的自动身份验证

当Big Query加载失败并且CSV表遇到太多错误时,获取更多信息,放弃[重复]