用于将 HLL_COUNT.INIT 提取到 BigQuery 的 Google DataFlow API
Posted
技术标签:
【中文标题】用于将 HLL_COUNT.INIT 提取到 BigQuery 的 Google DataFlow API【英文标题】:Google DataFlow API for ingesting HLL_COUNT.INIT into BigQuery 【发布时间】:2017-05-26 16:32:05 【问题描述】:我正在向 PubSub 发送数据,我正在尝试创建 DataFlow 作业以将数据放入 BigQuery。 我在数据中有一个我想做的唯一列 HLL_COUNT.INIT 在 DataFlow 端是否有等效的方法,以便我可以将 HLL 版本的列直接存储在 BigQuery 中?
【问题讨论】:
我和 spark 有同样的用例 【参考方案1】:不,DataFlow 不支持 BigQuery HLL 草图格式,但它显然是有用的。我在 DataFlow 问题跟踪器中为其创建了功能请求:https://issuetracker.google.com/62153424。
更新:HyperLogLog++ 的 BigQuery 兼容实现已开源到 github.com/google/zetasketch 和设计文档 (docs.google.com/document/d/...)关于将其集成到 Apache Beam 中的信息已发送至 dev@beam.apache.org。
【讨论】:
如果您将解决方案开源,那就太好了。我们也想将它与 Apache Spark 一起使用。 github.com/apache/beam/tree/master/sdks/java/extensions/… 更新:HyperLogLog++ 的 BigQuery 兼容实现已向github.com/google/zetasketch 开源,有关将其集成到 Apache Beam 的设计文档 (docs.google.com/document/d/…) 已发送至 dev@beam .apache.org.以上是关于用于将 HLL_COUNT.INIT 提取到 BigQuery 的 Google DataFlow API的主要内容,如果未能解决你的问题,请参考以下文章