从 Google Analytics 到(几乎)access.log

Posted

技术标签:

【中文标题】从 Google Analytics 到(几乎)access.log【英文标题】:From Google Analytics to (nearly) access.log 【发布时间】:2016-10-23 10:11:58 【问题描述】:

背景:许多人希望从 Google Analytics 导出数据并迁移到另一个分析工具,但还没有现成的工具,请参阅this issue of a well-known open-source project。

如in this question 或here as well 所述,似乎无法从 Google Analytics 获取原始日志。 当然,可以使用自己的 Apache access.log 文件,但这些文件并不总是可用(例如我没有存储 5 年前的日志,因为我知道一切都在 Google Analytics 中,现在我明白了我的错误!)。


部分解决方案可能是:让我们将 Google Analytics 数据导出到类似 Apache 的 access.log 文件中。然后可以轻松地将这些数据导入任何分析工具中。

问题:我探索了 Google Analytics GUI,但我没有找到允许将所有过去的流量批量导出为表单中的日志文件的功能(包括引荐来源网址、用户代理等)

mywebsite.com:5.130.131.132 - - [23/Oct/2016:12:08:58 +0200] "GET /bla/abc.php HTTP/1.1" 302 241 "http://www.blabla.com" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/53.0.2785.143 Safari/537.36"

Google Analytics 中是否有允许执行此操作的功能?

【问题讨论】:

【参考方案1】:

不,出于各种原因:

Google Analytics 不会公开 IP 地址 GA 记录跟踪对 Google 服务器的请求,而不是对您自己服务器的请求,因此 GA 不会知道资源的请求方法 dito 用于响应状态(如果它已到达 GA,则默认为 200,否则不会记录命中)和内容长度 我认为 GA 不会公开完整的用户代理字符串

您必须通过自定义维度和/或override the sendHitTask 添加此信息,才能将(未处理的)数据的副本发送到您自己的跟踪服务器。在这种情况下,您必须在所有错误页面上实施 GA(对于 40 倍和 50 倍错误状态),当然它只适用于未来的数据,它仍然对已经收集的数据没有帮助。

GA 的高级版(最近更名为 Google Analytics 360)允许使用(via BigQuery) for more data fields to be exported,但这将使您每年损失 150 000 美元,因此可能不是一个选择。

【讨论】:

我不关心请求方法(GET等),也不关心访问者的IP。我很乐意只获得访问、访问的页面、访问的日期时间(+ 可能是用户代理,不是强制性的),即我需要用另一个工具重新创建 this chart。这种有限的出口是否可行@EikePierstorff? 不完全。 GA 只将时间解析到分钟,并且您只能获得每个网址的聚合浏览量,而不是单个点击。

以上是关于从 Google Analytics 到(几乎)access.log的主要内容,如果未能解决你的问题,请参考以下文章

从 API 获取 Google Analytics“访客流量”数据

将数据从 Google Analytics 迁移到 AWS Athena

Google Analytics 跟踪从 Lite 到 Pro 的转换

从 Google Analytics 获取 DoubleClick 数据并导出到 BigQuery

将原始 Google Analytics 数据从 BigQuery 移动到 Amazon S3

如何使用从 Google Play 安装的 Google Analytics 跟踪引荐来源网址?