将 json 格式数据加载到 google bigquery 性能问题
Posted
技术标签:
【中文标题】将 json 格式数据加载到 google bigquery 性能问题【英文标题】:Loading json format data into google bigquery performance issue 【发布时间】:2013-03-05 11:40:32 【问题描述】:我已将JSON
格式数据结构加载到 Google bigquery“嵌套”表中(我有 2 级嵌套“重复”记录)JSON
行的平均长度为 5000 个字符。
加载时间比将平面文件(总大小相同)加载到 Google bigquery 中要慢得多。
将json
加载到嵌套记录时的“经验法则”是什么?
如何提高我的表现?
就性能查询而言,从嵌套表中检索日期是否也比平面表慢得多?
请帮忙,我发现很难接触到该领域有经验的“DBA”
问候
【问题讨论】:
【参考方案1】:我不知道 json 导入应该变慢的任何原因,但我们还没有对它们进行基准测试。
如果性能很慢,最好将导入分成块并将多个源文件传递到加载作业中。
从嵌套表中检索数据应该不会更慢(并且可能更快)。列式存储格式应该比相应的平面表更有效地存储您的嵌套数据。
【讨论】:
以上是关于将 json 格式数据加载到 google bigquery 性能问题的主要内容,如果未能解决你的问题,请参考以下文章
如何通过GCS将GA360表从Big query导出到雪花作为json文件而不丢失数据?
使用 Google Apps 脚本将查询中的数据加载到 Big Query - 缺少必需参数
Google BigQuery:将 ExecuteQuery 结果以 json 格式上传到 Google Cloud Storage