BQ 加载:加载过程中收到“意外错误”,没有额外输出

Posted

技术标签:

【中文标题】BQ 加载:加载过程中收到“意外错误”,没有额外输出【英文标题】:BQ loading: Received "unexpected error" during loading with no additional output 【发布时间】:2015-06-27 00:58:49 【问题描述】:

我向 Google BigQuery 提交了一个加载作业,该作业从 Google 云存储加载了 12 个压缩 (gzip) 表格文件。每个文件大约压缩 2 个演出。我运行的命令类似于:

bq load --nosync --skip_leading_rows=1 --source_format=CSV
--max_bad_records=14000 -F "\t" warehouse:some_dataset.2014_lines
gs://bucket/file1.gz,gs://bucket/file2.gz,gs://bucket/file12.gz 
schema.txt

我从我的 BigQuery 加载作业中收到以下错误,但没有解释原因:

错误原因:内部错误。在以下位置获取有关此错误的更多信息 错误排查:internalError。

错误:意外。请重试。

我确信架构文件的格式正确,因为我已使用相同架构但不同的文件集成功加载了文件。

我想知道在什么情况下会发生这样的内部错误,我可以通过哪些方法来调试此问题?

我的 BQ 工作 ID:bqjob_r78ca777a8ad4bdd9_0000014e2dc86e0e_1

谢谢!

【问题讨论】:

“支持人员”?我认为你来错地方了。 Stack Overflow 是一个免费的专业人士社区,他们交换问题和答案。这里没有人得到补偿。我们不是传统意义上的支持网络。如果您愿意付费,Google 会提供传统的支持服务。但是请坚持住,这里的某个人可能会为您解答。 =D 因此,从像您这样的其他用户那里获得答案的方法是写一个minimal, complete, verifiable example 的问题,以便其他人可以重现它并尝试调试它。然而,这甚至是一个编程问题并不明显。 嗯是的。我认为谷歌正在使用这个线程来支持付费客户。我想我错了。不,这不是编程问题,更多的是我希望 Google 提供更多输出以了解原因。 稍微编辑了问题。希望这可以让我对发生未知内部错误的原因和时间有所了解。 【参考方案1】:

在某些情况下,您可能会遇到大型 .gz 输入文件,这些文件并不总是报告有明确的原因。尤其是(但不仅限于)高度可压缩的文本会发生这种情况,因此 1 GB 的压缩数据代表异常大量的文本。

this page 压缩 CSV/JSON 的记录限制为 1 GB。如果这是最新的,我实际上预计您的 2 GB 输入会出错。让我检查一下。

您能否将这些文件拆分成更小的部分并重试?

(Meta: Grace,你说得对,Google says 在 *** 上“Google 工程师使用标签 google-bigquery 监控和回答问题”。我是一名 Google 工程师,但这里也有很多知识渊博的人不是。Google 的文档可能会提供更明确的指导:对 *** 社区最有价值的问题是未来的人可以识别他们遇到同样问题的问题,最好是非 Google 员工可以从公共信息中回答的问题.这对你来说很难,因为错误很广泛,原因还不清楚。但是如果你能够使用你可以公开的输入文件来重现问题,那么这里的更多人将能够解决这个问题. 你也可以file an issue 来回答除了 Google 之外没有人能解决的问题。)

【讨论】:

@eubrant 感谢您的回答,包括元数据中的建议。这真的很有帮助。

以上是关于BQ 加载:加载过程中收到“意外错误”,没有额外输出的主要内容,如果未能解决你的问题,请参考以下文章

使用 BQ API 使用 Write_Truncate 将数据加载到“分区表”

Google BigQuery 在加载作业的 ignoreUnknownValues 选项上出现意外行为(收到额外列的错误)

Spring Boot Security 自定义登录页面未加载

由于意外错误,无法加载测试包

Bq 命令或数据流按原样加载

如何获得 BQ 文件加载的进度