如何在 Google BigQuery 中加载大文本文件
Posted
技术标签:
【中文标题】如何在 Google BigQuery 中加载大文本文件【英文标题】:How to load large text file in Google BigQuery 【发布时间】:2019-09-29 04:07:07 【问题描述】:我浏览了 Google BigQuery 文档,发现 BigQuery 中未加密文件加载的文件容量限制为 5TB,加密文件加载限制为 4TB,每个加载作业为 15TB。
我有一个假设性问题 - 如何加载大于 16TB 的文本文件(假设加密会使其在 4TB 范围内)?我还看到 GCS 云存储限制是每个文件 5TB。
我从未这样做过,但这是我认为可能的方法但不确定并寻求确认的方式。首先,我们必须拆分文件。接下来,我们必须对它们进行加密并将它们传输到 GCS。接下来,将它们加载到 Google BigQuery 表中。
【问题讨论】:
当你说“加密”时,你的意思是压缩吗? 【参考方案1】:我猜你走在正确的轨道上。将文件拆分成更小的块,然后将它们分配到 2 或 3 个不同的 GCS 存储桶中。
一旦块在存储桶中,您就可以继续将它们加载到 BQ 中。
希望对你有帮助。
【讨论】:
以上是关于如何在 Google BigQuery 中加载大文本文件的主要内容,如果未能解决你的问题,请参考以下文章
Google BigQuery:当我从存储中加载数据时出现“string_field_0”
为啥 Parquet 文件中的数据在 BigQuery 表中加载后与源数据不匹配
如何将数据从按年/月/日分区的存储桶中加载到 bigquery
如何使用 POST 请求在 Big Query 中加载数据?