网站pv uv统计

Posted 毛台

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网站pv uv统计相关的知识,希望对你有一定的参考价值。

http://myhoop.blog.51cto.com/5556534/1367523

tomcat日志格式: http://www.cnblogs.com/anic/archive/2012/12/13/2817126.html

一,统计1.27日到2.2日的日志

蛋疼点:

1,天数多,机器多

先想办法列出所有要统计的压缩包

2,日志都已压缩

bzcat可以在不解压情况下查压缩内容

pv统计:

bzcat node{1,2,3,4}/ access_log.2017-02-0{1,2}*.bz2 node{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep "your keywords"|wc -l

bzcat node{1,2,3,4}/ access_log.2017-02-0{1,2}*.bz2 node{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords"|wc -l

uv统计:

蛋疼点: X-Forwarded-For对应用户真实ip,日志|分割,从日志看,有些|分割第一项有2个ip,有些日志条目有1个ip. 解决:先按|awk过滤,再按,过滤,过滤出第一列,之后去重,然后后统计.

bzcat node{1,2,3,4}/access_log.2017-02-0{1,2}*.bz2 java{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords "|awk -F \'|\' \'{print$1}\'|awk -F \',\' \'{print $1}\'|sort|uniq -c|sort -rn|wc -l

bzcat node{1,2,3,4}/access_log.2017-02-0{1,2}*.bz2 java{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords "|awk -F \'|\' \'{print$1}\'|awk -F \',\' \'{print $1}\'|sort|uniq -c|sort -rn|wc –l

 

以上是关于网站pv uv统计的主要内容,如果未能解决你的问题,请参考以下文章

hive 的日志处理统计网站的 PV UV案例 与 给合 python的数据清洗数据案例

网站计数PV UV IP Session 的简介

搭建自己的技术博客系列博客接入百度统计,随时了解你博客的PV/UV

程序员修仙之路--优雅快速的统计千万级别uv

python-装饰器实现pv-uv

优雅快速的统计千万级别uv