超多分析结果表 简单字段关联 生成大宽表 的 并发拓展

Posted qq1144054302

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超多分析结果表 简单字段关联 生成大宽表 的 并发拓展相关的知识,希望对你有一定的参考价值。

年前有些放纵了,一直没有完成该篇的节奏感。推延至今

 

大数据量面前单机显然是不合适的,所以尝试将前述逻辑 并发化 考虑 以适应 分布式处理。

 

回溯数据清洗流程,

1.流量数据区间圈定,

2.流量数据按要求筛选聚合

3.各汇总表按唯一标志联合

 

初步猜想中,需要一张包含所有唯一标志的主表,这也是减少匹配次数的关键。

主表的产生不应该到流程第三步,也完全没有必要。

 

清洗流程第二步流量数据聚合的同时,完全可以完成 该主表的去重和排序。

接下来按照 记录总数均匀分发主表数据到个 executor,并记录下个executor的首尾,

 

于是在清洗流程第三步中,将个聚合表按标志分发到相应executor,并按初步猜想中的逻辑完成表的组合。

 

后续会考虑,尝试实现和验证实际效果。

以上是关于超多分析结果表 简单字段关联 生成大宽表 的 并发拓展的主要内容,如果未能解决你的问题,请参考以下文章

100个字段的hive大宽表kylin如何处理?

视频特辑数据分析师必备,快速制作一张强大好用的大宽表

Flink + Hudi 实现多流拼接(大宽表)

Elasticseach:从微服务架构演变到大宽表思维的架构转变

Elasticseach:从微服务架构演变到大宽表思维的架构转变

MyBatisPlus多数据源加ES大宽表架构落地实践