ETL的数据来源,处理,保存

Posted 因为专注。所以专业

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ETL的数据来源,处理,保存相关的知识,希望对你有一定的参考价值。

 

1.ETL

  数据来源:HDFS

  处理方式:Mapreduce

  数据保存:HBase

   

 

2.为什么保存在Hbase中

  数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合
  因为我们的分析一般情况下,是对于部分事件数据进行分析的,不需要所有的数据,希望将数据的初步过滤放到服务器上进行操作,所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
  

  

 

3.数据处理  

  MapReduce
    数据流: hbase -> mapreduce -> mysql
  Hive
    数据流:hbase -> hive -> hdfs -> sqoop -> mysql

 

4.来源HDFS

  这些数据是在flume中收集来的数据,这些数据在前面已经被上传到HDFS。

  

以上是关于ETL的数据来源,处理,保存的主要内容,如果未能解决你的问题,请参考以下文章

客快物流大数据项目(四十):ETL实现方案

ETL工具大全:KettleDataCleanercanalDataX

同步还是异步?ETL架构的选择,为何关系到数据处理速度和系统性能

数据分析你需要知道的操作:ETL和ELT

数据仓库模型ETL架构(DWI/DWR/DM)

什么是ETL?一文掌握ETL设计过程