大数据手撕大数据离线计算方案

Posted 长城守卫队长

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据手撕大数据离线计算方案相关的知识,希望对你有一定的参考价值。

1.使用场景分析:

为什么使用大数据离线计算,工作中,我们总会涉及一些跨数据库的统计需求,如果数量少,我们可以通过java代码代替sql的jion,但是数据量大,两个数据库的实例是无法进行jion连接的,如果项目进行分库分表,我们是无法直接通过mysql的sql语句进行jion关联的,此时我们需要借助大数据离线计算方案

2.业务架构图

1.简历离线画像计算

 

思路分析:简历库和字段数据库是两个数据库:我们进行简历数据全量统计时候是无法直接jion的,此时我们需要通过sqoop把数据拉取到hive数据库里面,在hive数据库里面计算得到一张新表,然后在通过sqoop命令把新表的数据推到mysql(bi数据库)中(这个表的存储引擎建议用myisam),然后java通过去查询bi数据库,将数据展示给用户。

2.日志采集架构图:

 

 

 

 

以上是关于大数据手撕大数据离线计算方案的主要内容,如果未能解决你的问题,请参考以下文章

大数据手撕大数据离线计算方案

用户画像大数据解决方案-脑图(电商行业)

推荐系统离线增量文章画像计算

推荐系统离线增量文章画像计算

大数据在线离线一体化解决方案最佳实践

基于画像离线+实时推荐系统全面总结