无法将 csv 文件从 GCS 加载到 bigquery

Posted

技术标签:

【中文标题】无法将 csv 文件从 GCS 加载到 bigquery【英文标题】:unable to load csv file from GCS into bigquery 【发布时间】:2016-07-18 13:25:28 【问题描述】:

我无法将 500mb 的 csv 文件从谷歌云存储加载到大查询,但我收到了这个错误

Errors:
Too many errors encountered. (error code: invalid)
Job ID  xxxx-xxxx-xxxx:bquijob_59e9ec3a_155fe16096e
Start Time  Jul 18, 2016, 6:28:27 PM
End Time    Jul 18, 2016, 6:28:28 PM
Destination Table   xxxx-xxxx-xxxx:DEV.VIS24_2014_TO_2017
Write Preference    Write if empty
Source Format   CSV
Delimiter   ,
Skip Leading Rows   1
Source URI  gs://xxxx-xxxx-xxxx-dev/VIS24 2014 to 2017.csv.gz 

我已将 500mb 的 csv 文件压缩到 csv.gz 以上传到 GCS。请帮我解决这个问题

【问题讨论】:

【参考方案1】:

您的工作的内部详细信息显示读取 CSV 文件的第 1 行时出错。您需要进一步调查,但可能是您的标题行不符合文件其余部分的架构,因此我们试图将标题中的字符串解析为整数或布尔值或类似的东西。您可以设置skipLeadingRows 属性以跳过此类行。

除此之外,我会检查您的数据的第一行是否与您尝试导入的架构相匹配。


另外,很遗憾,您收到的错误消息非常无用,因此我在内部提交了一个错误,以使您在这种情况下收到的错误更有帮助。

【讨论】:

我已经选择 Header rows to skip 选项为 1,因为我正在 bq 浏览器工具中上传文件.....还有其他解决此错误的建议吗?? 啊,如果您已经跳过了标题行,那么您可能需要检查文件的第二行。该行中的数据是否与您在作业中提供的架构相匹配(例如正确的字段数)?

以上是关于无法将 csv 文件从 GCS 加载到 bigquery的主要内容,如果未能解决你的问题,请参考以下文章

GCP将数据作为字符串从GCS中的CSV文件加载到BigQuery表中

将 CSV 从 GCS 批量加载到 BigQuery 时,表数据是增量查看还是仅在所有文件加载后才可查看?

BigQuery - 在插入表时调用查询

无法从数据流中的 GCS 读取我的配置文本文件(列名)

将 GCS 存储桶中的 .csv 文件中的数据加载到 Cloud SQL 表中:

使用 Dataflow 管道 (python) 将多个 Json zip 文件从 GCS 加载到 BigQuery