将原始 Google Analytics 数据从 BigQuery 移动到 Amazon S3
Posted
技术标签:
【中文标题】将原始 Google Analytics 数据从 BigQuery 移动到 Amazon S3【英文标题】:Moving raw Google Analytics data from BigQuery to Amazon S3 【发布时间】:2018-03-21 11:06:13 【问题描述】:我们已将客户网站 Google Analytics Acc 与 BigQuery 集成。所以 GA 每天都将原始数据转储到 Bigtable 中。现在我的目标是将这些数据移动到 Amazon S3。
我可以使用 GCP 传输作业将这些原始数据从 bigtables 移动到谷歌云,然后从那里移动到 S3。但是,GCP 会花费您将数据存储到云端的费用。
现在,Google 还提供了不同语言的客户端库,实习生调用 GCP API。现在,我可以使用 Java 客户端库查询 BigTable,但是我不确定他们是否会为此类查询向您收费,以及这些客户端库是否有任何配额限制。
因此,如果有人完全使用 GA 和 bigQuery,请指导我如何在不花费客户任何费用的情况下从 Bigtable 读取数据。
【问题讨论】:
你能澄清你的问题吗? 我们已将 Google Analytics Acc 与 BigQuery 集成。所以 GA 每天都将原始数据转储到 Bigtable 中。目标是将这些数据移动到 Amazon S3。 Google 提供了云平台,我们可以从该平台将数据移动到 S3,但 GCP 会花费您将数据存储到 Google 云中。 请将所有相关信息添加到问题本身,而不是 cmets。 +1 与您提出的问题相比,这实际上是一个非常不同的问题(如何将数据从 BigQuery 移动到 S3)。我建议使用导出作业在 GCS 中创建文件,然后在这种情况下将这些文件复制到 S3,而不是直接读取行。 【参考方案1】:一种可能的解决方案是在 BigQuery 端每天生成一个压缩文件并将其存储在 GCS,然后拥有一个 EC2 实例,在 EC2 实例上安装 gsutil,并触发 gsutil 每天从 GCS 复制文件。
我们每天都以这种方式移动压缩的 JSON 文件。
祝你好运!
【讨论】:
以上是关于将原始 Google Analytics 数据从 BigQuery 移动到 Amazon S3的主要内容,如果未能解决你的问题,请参考以下文章
从 Google Analytics 获取 DoubleClick 数据并导出到 BigQuery
如何计算会话持续时间和平均值。 Google Analytics 原始数据中的会话持续时间?
使用python和管理api将外部数据推送到google analytics 360