数据的采集
Posted hongfeng2019
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据的采集相关的知识,希望对你有一定的参考价值。
采集类型:
全量 采集: 相当于每天整张表做个快照,在hdfs上就是一个分区 ,表比较小
增量采集: 采集每天增加的部分
1、流水型数据 :
写入数据库数据不再发生变化(如日志,交易流水) , 第二天处理前一天的数据
采集条件可设为
1/ 按时间增量的抽取 ,sqoop:
create_time>=T-1 00:00:00
create_time<=T 00:00:00
2/ 按表的自增ID,每张表都有个自增ID
2、每天会发生变化 (如商品):
1/表比较小 ,每天采集全量
2/ 表比较大
必须有两个字段,create_time, updated_time字段
昨天发生变化的数据+昨日新增的数据 ,采集条件:updated_time >=T-1 00:00:00
and create_time < T 00:00:00
以上是关于数据的采集的主要内容,如果未能解决你的问题,请参考以下文章