将 json 格式数据加载到 google bigquery 性能问题

Posted

技术标签:

【中文标题】将 json 格式数据加载到 google bigquery 性能问题【英文标题】:Loading json format data into google bigquery performance issue 【发布时间】:2013-03-05 11:40:32 【问题描述】:

我已将JSON 格式数据结构加载到 Google bigquery“嵌套”表中(我有 2 级嵌套“重复”记录)JSON 行的平均长度为 5000 个字符。 加载时间比将平面文件(总大小相同)加载到 Google bigquery 中要慢得多。

    json 加载到嵌套记录时的“经验法则”是什么?

    如何提高我的表现?

    就性能查询而言,从嵌套表中检索日期是否也比平面表慢得多?

请帮忙,我发现很难接触到该领域有经验的“DBA”

问候

【问题讨论】:

【参考方案1】:

    我不知道 json 导入应该变慢的任何原因,但我们还没有对它们进行基准测试。

    如果性能很慢,最好将导入分成块并将多个源文件传递到加载作业中。

    从嵌套表中检索数据应该不会更慢(并且可能更快)。列式存储格式应该比相应的平面表更有效地存储您的嵌套数据。

【讨论】:

以上是关于将 json 格式数据加载到 google bigquery 性能问题的主要内容,如果未能解决你的问题,请参考以下文章

如何通过GCS将GA360表从Big query导出到雪花作为json文件而不丢失数据?

使用 Google Apps 脚本将查询中的数据加载到 Big Query - 缺少必需参数

Google BigQuery:将 ExecuteQuery 结果以 json 格式上传到 Google Cloud Storage

如何以 CSV 表格格式将原始数据源从 Google Big Query 导出到 R 服务器?

Google Big Query 在日期列中期望啥?

将文件从 Google Cloud 自动上传到 Big Query