查询在没有目标表的情况下工作，但由于目标表“超出资源”而失败

Posted 2023-04-18

技术标签:

【中文标题】查询在没有目标表的情况下工作，但由于目标表“超出资源”而失败【英文标题】：Query works without destination table, but fails with destination table "resources exceeded" 【发布时间】：2020-03-27 08:33:38 【问题描述】：

我有一个查询，它产生大约 2000 万行，需要按时间戳 DESC 排序。当我使用设置“将查询结果保存在临时表中”时，查询工作，但是当我设置目标表时，查询失败并出现错误“查询执行期间超出资源：查询无法在分配的内存。峰值使用量：限制的 126%。***内存消费者：ORDER BY 操作：97% 其他/未归因：3%”。我不想设置限制，因为我需要所有输出行来继续我的分析。临时表和目标表有什么区别。为什么一种有效，一种无效。最后，我该如何解决这个问题？我能想到的唯一方法是减少行数，因此基本上将其分解为多个“相同”查询，以获取最终结果的分区，但这会使我的成本增加约 5-10 倍。

【问题讨论】：

您要对 2000 万行进行排序？为什么？ 2000万行排序后下一步是什么？还是只获得前 2000 行就足够了？每一行代表一个动作，我对它们进行排序（最近的在前），然后将它们交给另一台服务器以按排序顺序进行处理。有一个需要应用于每一行的过程，因此不再发生聚合。我们按此顺序处理它们很重要。有些行没有时间戳（NULL），所以最后我有几百万行时间戳从最新到最旧排序，然后是所有其他行，不确定在排序时如何处理 NULL 行。关于下一步的好建议。我意识到我将它们分解为不同的动作类型。所以我找到了一个解决方案，我按动作类型分组（我有不到 1000 个），然后在行的其余部分使用带有 ORDER BY 时间戳的 ARRAY_AGG。然后我得到了大量的行（UI 给了我“超出 API 限制：无法返回超过 API 限制的行。要检索行，请导出表”）但我可以使用结果。将有序结果保存到目标表中没有任何意义和/或任何实际价值 - 因为 BigQuery 中的表根本没有物理顺序的概念。因此，如果您随后将其（无论如何）传递给“另一台服务器进行处理”，则该订单将丢失，并且无论如何您都需要再次订购。如此简单的建议 - 只需在保存结果时删除排序语句 - 并将排序移至进一步处理阶段 【参考方案1】：

将 cmets 总结为答案：

您确实不想对 2000 万行进行排序，然后将它们作为表放回 BigQuery。这样做没有什么好处。

您真正想要的是按每种激活类型对行进行排序。一个解决方案是使用ARRAY_AGG()，以及OVER(PARTITION BY)。

作为使您的数据为整个表排序的替代方法：使用CLUSTERING BY。那么您的所有查询将只查询这部分数据。

见：

https://medium.com/google-cloud/bigquery-optimized-cluster-your-tables-65e2f684594b

【讨论】：

以上是关于查询在没有目标表的情况下工作，但由于目标表“超出资源”而失败的主要内容，如果未能解决你的问题，请参考以下文章

如何在不使用 Join 的情况下处理引用其他表的相关子查询的问题

Informatica将多个连接的查询拆分到1个目标表的同一字段。

具有目标表的bq查询的定价

如何将一个表的查询结果插入到另一个表中？

基于从源表的一列向目标表插入多列的查询优化

我的带有 1 个查询表和 3 个数据透视表的 Excel 文件在没有数据的情况下刷新时大小为 9MB