Hadoop之网站流量日志数据分析

Posted _TIM_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop之网站流量日志数据分析相关的知识,希望对你有一定的参考价值。

网站流量日志数据分析系统

点击流数据模型

点击流是指用户在网站上持续访问的轨迹,按照时间来进行先后区分,基本上所有大型网站都有日志埋点。通过js的方式,可以获得用户在网站上所访问的内容,包括url。埋点收集过来的数据,都发送到日志服务器,一条日志大概1KB。然后分析用户的点击数据,得到我们的点击流模型。

日志数据例子:192.168.52.100 a.html2018-11-20 11:20:20
可以分析计算有多少用户访问?一共访问多少页面?平均一个用户访问多少页面?页面停留时间?等等问题,可以把访问数据模型转化成以下两种模型:

PageView模型: 重视每一个页面访问情况
Visit模型: 重视每一个页面访问情况

流量分析包括内容分析、转化分析是一个内涵丰富的体系,整体过程是一个金字塔结构,金字塔顶部是网站的目标:投资回报率ROI

网站流量模型分析: 分析网站流量的来源:广告推广、自然搜索、付费搜索、直接流量

网站流量多维度细分: 通过不同维度对指标进行分割,访问来源(时间粒度和地理位置) 访问媒介(目标页面和新老访客)

网站内容及导航页分析 页面可以分为导航页、功能页、内容页

网站流量转化漏斗分析 首页 -> 网站分类页 -> 商品详情页 -> 订单确认页 -> 付款购买页

流量常见分析分类 访问网站的不重复IP数(一个IP对应多个人,通过cookie来区分)、PageView浏览量(PV值,每打开一次就算一次)、Unique PageView浏览量(用户一天内多次访问算一次)、网站停留时间等等

访客分析 地区运营商、终端详情、新老访客、忠诚度、活跃度

转化路径分析 分析漏斗模型:每一步相对于上一步和第一步的转化率

流量分析网站整体架构模块

  • 数据采集模块 使用flume来进行采集
  • 数据清洗与预处理,用MapReduce实现
  • 数据入库,将清洗后结构化的数据全部loadhive表里
  • 数据分析,开发数据统计分析的hql语言
  • 数据展示,展示结果数据

以上是关于Hadoop之网站流量日志数据分析的主要内容,如果未能解决你的问题,请参考以下文章

十大互联网数据分析方法之-漏斗分析

Clickhouse(流量分析(一).漏斗分析案例)

使用Hadoop统计日志数据

Clickhouse(流量分析(三).路径分析案例)

Hadoop MapReduce编程 API入门系列之网页流量版本1(二十二)

Hadoop MapReduce编程 API入门系列之网页流量版本1(二十一)