Bigquery 最大处理数据大小允许?

Posted

技术标签:

【中文标题】Bigquery 最大处理数据大小允许?【英文标题】:Bigquery maximum processing data size allowance? 【发布时间】:2019-08-06 20:17:33 【问题描述】:

我的问题是我们允许在 bigquery 上处理多少数据。我正在使用***的kaggle数据集来分析数据,我正在分析的文本大约是27gb。我只想获得每个条目的平均长度,所以我这样做了

query_length_text = """
    SELECT 
        AVG(CHAR_LENGTH(title)) AS avg_title_length,
        AVG(CHAR_LENGTH(body)) AS avg_body_length
    FROM
        `bigquery-public-data.***.***_posts`
"""

不过这样说:

查询已取消; 26.847077486105263 的估计大小超过了 1 GB 的限制

我只返回一个浮点数,所以我知道这不是问题。 1gb也在处理吗?怎么分批处理,一次做1gb?

【问题讨论】:

您是否为自己设置了自定义配额?还是您的项目管理员设置了一个?您需要删除或覆盖您设置的 1GB 限制。 我现在看到 Kaggle 有 1gb 的限制,可以通过使用 max_gb_scanned 参数来覆盖。谢谢! 我很高兴你明白了!考虑在您采取的步骤中添加答案,以防其他人将来遇到同样的问题。 【参考方案1】:

因此,Kaggle 默认设置了 1GB 的请求限制(以防止您每月 5TB 的配额用完)。这就是导致这种情况发生的原因。为防止这种情况,您可以使用 max_gb_scanned 参数覆盖它,如下所示:

df = bq_assistant.query_to_pandas_safe(QUERY, max_gb_scanned = N)

其中 N 是您的查询处理的数据量,或高于它的任何数字。

【讨论】:

以上是关于Bigquery 最大处理数据大小允许?的主要内容,如果未能解决你的问题,请参考以下文章

sql [BigQuery - Facebook产品目录]查询para obtenerelcatálogodeproductos de Kichink。 #facebook #bigqu

BigQuery - 在插入表时调用查询

BigQuery - 最大数据集大小

如何让我的客户将 BigQuery 查询结果导出为 CSV

表格到 Bigquery - 设置最大允许错误

从 BigQuery 数据查询中查询名为 chartio 的 BI 工具时,最大数据大小是多少?