手撕大数据离线计算方案
Posted 长城守卫队长
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了手撕大数据离线计算方案相关的知识,希望对你有一定的参考价值。
1.使用场景分析:
为什么使用大数据离线计算,工作中,我们总会涉及一些跨数据库的统计需求,如果数量少,我们可以通过java代码代替sql的jion,但是数据量大,两个数据库的实例是无法进行jion连接的,如果项目进行分库分表,我们是无法直接通过mysql的sql语句进行jion关联的,此时我们需要借助大数据离线计算方案
2.业务架构图
1.简历离线画像计算
思路分析:简历库和字段数据库是两个数据库:我们进行简历数据全量统计时候是无法直接jion的,此时我们需要通过sqoop把数据拉取到hive数据库里面,在hive数据库里面计算得到一张新表,然后在通过sqoop命令把新表的数据推到mysql(bi数据库)中(这个表的存储引擎建议用myisam),然后java通过去查询bi数据库,将数据展示给用户。
2.日志采集架构图:
以上是关于手撕大数据离线计算方案的主要内容,如果未能解决你的问题,请参考以下文章
ElasticSearch实战(四十五)-Spark 大数据数据离线同步方案