网站pv uv统计
Posted 毛台
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网站pv uv统计相关的知识,希望对你有一定的参考价值。
http://myhoop.blog.51cto.com/5556534/1367523
tomcat日志格式: http://www.cnblogs.com/anic/archive/2012/12/13/2817126.html
一,统计1.27日到2.2日的日志
蛋疼点:
1,天数多,机器多
先想办法列出所有要统计的压缩包
2,日志都已压缩
bzcat可以在不解压情况下查压缩内容
pv统计:
bzcat node{1,2,3,4}/ access_log.2017-02-0{1,2}*.bz2 node{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep "your keywords"|wc -l bzcat node{1,2,3,4}/ access_log.2017-02-0{1,2}*.bz2 node{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords"|wc -l
uv统计:
蛋疼点: X-Forwarded-For对应用户真实ip,日志|分割,从日志看,有些|分割第一项有2个ip,有些日志条目有1个ip. 解决:先按|awk过滤,再按,过滤,过滤出第一列,之后去重,然后后统计.
bzcat node{1,2,3,4}/access_log.2017-02-0{1,2}*.bz2 java{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords "|awk -F \'|\' \'{print$1}\'|awk -F \',\' \'{print $1}\'|sort|uniq -c|sort -rn|wc -l bzcat node{1,2,3,4}/access_log.2017-02-0{1,2}*.bz2 java{1,2,3,4}/access_log.2017-01-{27,28,29,30,31}.txt.bz2|grep " your keywords "|awk -F \'|\' \'{print$1}\'|awk -F \',\' \'{print $1}\'|sort|uniq -c|sort -rn|wc –l
以上是关于网站pv uv统计的主要内容,如果未能解决你的问题,请参考以下文章
hive 的日志处理统计网站的 PV UV案例 与 给合 python的数据清洗数据案例