用于将 HLL_COUNT.INIT 提取到 BigQuery 的 Google DataFlow API

Posted

技术标签:

【中文标题】用于将 HLL_COUNT.INIT 提取到 BigQuery 的 Google DataFlow API【英文标题】:Google DataFlow API for ingesting HLL_COUNT.INIT into BigQuery 【发布时间】:2017-05-26 16:32:05 【问题描述】:

我正在向 PubSub 发送数据,我正在尝试创建 DataFlow 作业以将数据放入 BigQuery。 我在数据中有一个我想做的唯一列 HLL_COUNT.INIT 在 DataFlow 端是否有等效的方法,以便我可以将 HLL 版本的列直接存储在 BigQuery 中?

【问题讨论】:

我和 spark 有同样的用例 【参考方案1】:

不,DataFlow 不支持 BigQuery HLL 草图格式,但它显然是有用的。我在 DataFlow 问题跟踪器中为其创建了功能请求:https://issuetracker.google.com/62153424。

更新:HyperLogLog++ 的 BigQuery 兼容实现已开源到 github.com/google/zetasketch 和设计文档 (docs.google.com/document/d/...)关于将其集成到 Apache Beam 中的信息已发送至 dev@beam.apache.org。

【讨论】:

如果您将解决方案开源,那就太好了。我们也想将它与 Apache Spark 一起使用。 github.com/apache/beam/tree/master/sdks/java/extensions/… 更新:HyperLogLog++ 的 BigQuery 兼容实现已向github.com/google/zetasketch 开源,有关将其集成到 Apache Beam 的设计文档 (docs.google.com/document/d/…) 已发送至 dev@beam .apache.org.

以上是关于用于将 HLL_COUNT.INIT 提取到 BigQuery 的 Google DataFlow API的主要内容,如果未能解决你的问题,请参考以下文章

从 Power BI 桌面/查询中的单元格中提取短语

BI 架构建议

如何将调查熊猫数据框转换为可用于 Python 中的 BI 工具的不同格式?

微软的Power BI(商业智能)软件的7个实用技巧

用于 powerpoint 的 BI 发布者模板生成器

Power BI R 脚本正则表达式仅返回第一个匹配项