ETL的数据来源,处理,保存

Posted 因为专注。所以专业

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ETL的数据来源,处理,保存相关的知识,希望对你有一定的参考价值。

 

1.ETL

  数据来源:HDFS

  处理方式:Mapreduce

  数据保存:HBase

   

 

2.为什么保存在Hbase中

  数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合
  因为我们的分析一般情况下,是对于部分事件数据进行分析的,不需要所有的数据,希望将数据的初步过滤放到服务器上进行操作,所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
  

  

 

3.数据处理  

  MapReduce
    数据流: hbase -> mapreduce -> mysql
  Hive
    数据流:hbase -> hive -> hdfs -> sqoop -> mysql

 

4.来源HDFS

  这些数据是在flume中收集来的数据,这些数据在前面已经被上传到HDFS。

  

以上是关于ETL的数据来源,处理,保存的主要内容,如果未能解决你的问题,请参考以下文章