有没有办法在大查询之外合并大查询超日志草图?

Posted

技术标签:

【中文标题】有没有办法在大查询之外合并大查询超日志草图?【英文标题】:Is there a way to merge big query hyperloglog sketches outside of big query? 【发布时间】:2018-09-13 15:05:02 【问题描述】:

我试图弄清楚是否可以从大查询中导出超日志草图并将它们合并到外部以进行基数估计。是否有可以轻松解析大查询草图的开源库?

如果没有,是否有任何关于 biq 查询的 hyperloglog 草图格式的公开信息?具体来说,使用哪种散列算法,包含什么类型的元数据,以及草图的结构?

【问题讨论】:

任何不熟悉 HYPERLOGLOG 草图的人都应该阅读这个cloud.google.com/bigquery/docs/reference/standard-sql/… 【参考方案1】:

HLL_COUNT 系列函数的草图格式和散列的详细信息目前不公开。

您能否在 public issue tracker 上提交功能请求并提供更多详细信息(例如,您希望与哪些工具/语言/库进行互操作以进行基数估计)?

【讨论】:

仅供参考。目前有两张关于这个问题的公开票:issuetracker.google.com/issues/117087375 和 issuetracker.google.com/issues/123269269 当前状态是在 Apache Beam 中创建新的“BigQuery-HLL++”草图正在开发中:issues.apache.org/jira/browse/BEAM-7013【参考方案2】:

现在您可以使用 ZetaSketch (https://github.com/google/zetasketch) 实现此目的,其中包括与 Google Cloud BigQuery 的实现兼容的 HLL++ 算法的实现。

【讨论】:

以上是关于有没有办法在大查询之外合并大查询超日志草图?的主要内容,如果未能解决你的问题,请参考以下文章

有啥命令可以获取大查询执行计划吗?

有没有办法在 bigquery 中删除表列?

在大查询中连接多个表

有没有办法使用合并语句将此查询转换为 Oracle 查询?

es在大数据面前怎么提升查询效率

有没有办法将此插入合并到选择查询中?