有没有办法在大查询之外合并大查询超日志草图?
Posted
技术标签:
【中文标题】有没有办法在大查询之外合并大查询超日志草图?【英文标题】:Is there a way to merge big query hyperloglog sketches outside of big query? 【发布时间】:2018-09-13 15:05:02 【问题描述】:我试图弄清楚是否可以从大查询中导出超日志草图并将它们合并到外部以进行基数估计。是否有可以轻松解析大查询草图的开源库?
如果没有,是否有任何关于 biq 查询的 hyperloglog 草图格式的公开信息?具体来说,使用哪种散列算法,包含什么类型的元数据,以及草图的结构?
【问题讨论】:
任何不熟悉 HYPERLOGLOG 草图的人都应该阅读这个cloud.google.com/bigquery/docs/reference/standard-sql/… 【参考方案1】:HLL_COUNT 系列函数的草图格式和散列的详细信息目前不公开。
您能否在 public issue tracker 上提交功能请求并提供更多详细信息(例如,您希望与哪些工具/语言/库进行互操作以进行基数估计)?
【讨论】:
仅供参考。目前有两张关于这个问题的公开票:issuetracker.google.com/issues/117087375 和 issuetracker.google.com/issues/123269269 当前状态是在 Apache Beam 中创建新的“BigQuery-HLL++”草图正在开发中:issues.apache.org/jira/browse/BEAM-7013【参考方案2】:现在您可以使用 ZetaSketch (https://github.com/google/zetasketch) 实现此目的,其中包括与 Google Cloud BigQuery 的实现兼容的 HLL++ 算法的实现。
【讨论】:
以上是关于有没有办法在大查询之外合并大查询超日志草图?的主要内容,如果未能解决你的问题,请参考以下文章