如何在 Google BigQuery 中加载大文本文件

Posted

技术标签:

【中文标题】如何在 Google BigQuery 中加载大文本文件【英文标题】:How to load large text file in Google BigQuery 【发布时间】:2019-09-29 04:07:07 【问题描述】:

我浏览了 Google BigQuery 文档,发现 BigQuery 中未加密文件加载的文件容量限制为 5TB,加密文件加载限制为 4TB,每个加载作业为 15TB。

我有一个假设性问题 - 如何加载大于 16TB 的文本文件(假设加密会使其在 4TB 范围内)?我还看到 GCS 云存储限制是每个文件 5TB。

我从未这样做过,但这是我认为可能的方法但不确定并寻求确认的方式。首先,我们必须拆分文件。接下来,我们必须对它们进行加密并将它们传输到 GCS。接下来,将它们加载到 Google BigQuery 表中。

【问题讨论】:

当你说“加密”时,你的意思是压缩吗? 【参考方案1】:

我猜你走在正确的轨道上。将文件拆分成更小的块,然后将它们分配到 2 或 3 个不同的 GCS 存储桶中。

一旦块在存储桶中,您就可以继续将它们加载到 BQ 中。

希望对你有帮助。

【讨论】:

以上是关于如何在 Google BigQuery 中加载大文本文件的主要内容,如果未能解决你的问题,请参考以下文章

Google BigQuery:当我从存储中加载数据时出现“string_field_0”

为啥 Parquet 文件中的数据在 BigQuery 表中加载后与源数据不匹配

如何将数据从按年/月/日分区的存储桶中加载到 bigquery

如何使用 POST 请求在 Big Query 中加载数据?

Bigquery - 在一列中加载带有“#N/A”的 CSV

Google Bigquery 显示“尚未为此项目启用计费”。