数据的采集

Posted hongfeng2019

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据的采集相关的知识,希望对你有一定的参考价值。

采集类型:

全量 采集: 相当于每天整张表做个快照,在hdfs上就是一个分区 ,表比较小

增量采集: 采集每天增加的部分 

 

1、流水型数据 :

写入数据库数据不再发生变化(如日志,交易流水) , 第二天处理前一天的数据 

采集条件可设为
1/ 按时间增量的抽取 ,sqoop:

create_time>=T-1 00:00:00

create_time<=T 00:00:00

2/ 按表的自增ID,每张表都有个自增ID

 

2、每天会发生变化 (如商品):

1/表比较小 ,每天采集全量

2/ 表比较大

必须有两个字段,create_time, updated_time字段

昨天发生变化的数据+昨日新增的数据  ,采集条件:updated_time >=T-1 00:00:00

and create_time < T 00:00:00

技术图片

 

 

 

 



以上是关于数据的采集的主要内容,如果未能解决你的问题,请参考以下文章

大数据之数据采集

数据采集的主要类型都有哪些

如何做好数据分析的数据采集工作?

审计数据采集策略与原理

用户行为数据采集核心思维(APPweb数据采集/埋点)

大数据服务运营之数据采集