spark用户访问session分析

Posted 2020-09-07 willian

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了spark用户访问session分析相关的知识，希望对你有一定的参考价值。

基础数据结构

user_visit_action 点击流数据（hive表）

date  //日期：代表用户点击行为是在哪一天发生
user_id  //代表这个点击行为是哪一个用户执行的
session_id //唯一标识了某个用户的一个访问session
page_id //页面的id，点击品类，进入某个页面
action_name //这个点击行为发生的时间点
search_keyword //搜索的关键词
click_category_id //网站首页点击了某个品类
click_product_id //网站列表页点击了某个商品
order_category_ids //代表了将某些商品加入了购物车，然后一次性的对商品下了单，某次下单行为中，有哪些商品品类
order_product_ids //某次下单行为中，有哪些商品
pay_category_ids //一次支付行为中对应了哪些品类
pay_product_ids  //支付行为中，对应了哪些具体的商品

user_info 用户信息表（hive表）

user_id //用户的唯一标识
username //用户的登录名
name //用户名
age //年龄
professinal //职业
city //城市

task表（mysql表）

task_id   //主键
task_name //任务名称
create_time //创建时间
start_time //开始运行的时间
finish_time //结束运行的时间
task_type //任务类型
task_status //任务状态,对应spark作业运行的状态
task_param //用来使用json的格式来封装用户提交的任务的特殊筛选参数

交互流程

1.j2ee平台的使用者，向平台提交任务（包含任务参数），并将任务插入到mysql表中的task表

2.Runtime，Process等API去执行一个封装了spark-submit命令的linux的shell脚本

以上是关于spark用户访问session分析的主要内容，如果未能解决你的问题，请参考以下文章