Hadoop之网站流量日志数据分析
Posted _TIM_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop之网站流量日志数据分析相关的知识,希望对你有一定的参考价值。
网站流量日志数据分析系统
点击流数据模型
点击流是指用户在网站上持续访问的轨迹,按照时间来进行先后区分,基本上所有大型网站都有日志埋点。通过js
的方式,可以获得用户在网站上所访问的内容,包括url
。埋点收集过来的数据,都发送到日志服务器,一条日志大概1KB
。然后分析用户的点击数据,得到我们的点击流模型。
日志数据例子:192.168.52.100 a.html2018-11-20 11:20:20
可以分析计算有多少用户访问?一共访问多少页面?平均一个用户访问多少页面?页面停留时间?等等问题,可以把访问数据模型转化成以下两种模型:
PageView模型: 重视每一个页面访问情况
Visit模型: 重视每一个页面访问情况
流量分析包括内容分析、转化分析是一个内涵丰富的体系,整体过程是一个金字塔结构,金字塔顶部是网站的目标:投资回报率ROI
网站流量模型分析: 分析网站流量的来源:广告推广、自然搜索、付费搜索、直接流量
网站流量多维度细分: 通过不同维度对指标进行分割,访问来源(时间粒度和地理位置) 访问媒介(目标页面和新老访客)
网站内容及导航页分析 页面可以分为导航页、功能页、内容页
网站流量转化漏斗分析 首页 -> 网站分类页 -> 商品详情页 -> 订单确认页 -> 付款购买页
流量常见分析分类 访问网站的不重复IP数(一个IP对应多个人,通过cookie来区分)、PageView浏览量(PV值,每打开一次就算一次)、Unique PageView浏览量(用户一天内多次访问算一次)、网站停留时间等等
访客分析 地区运营商、终端详情、新老访客、忠诚度、活跃度
转化路径分析 分析漏斗模型:每一步相对于上一步和第一步的转化率
流量分析网站整体架构模块
- 数据采集模块 使用
flume
来进行采集 - 数据清洗与预处理,用
MapReduce
实现 - 数据入库,将清洗后结构化的数据全部
load
到hive
表里 - 数据分析,开发数据统计分析的
hql
语言 - 数据展示,展示结果数据
以上是关于Hadoop之网站流量日志数据分析的主要内容,如果未能解决你的问题,请参考以下文章
Hadoop MapReduce编程 API入门系列之网页流量版本1(二十二)
Hadoop MapReduce编程 API入门系列之网页流量版本1(二十一)