ETL的数据来源，处理，保存

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ETL的数据来源，处理，保存相关的知识，希望对你有一定的参考价值。

1.ETL

　　数据来源：HDFS

　　处理方式：Mapreduce

　　数据保存：HBase

2.为什么保存在Hbase中

　　数据字段格式不唯一/不相同/不固定，采用hbase的动态列的功能非常适合
　　因为我们的分析一般情况下，是对于部分事件数据进行分析的，不需要所有的数据，希望将数据的初步过滤放到服务器上进行操作，所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
　　

3.数据处理　　

　　MapReduce
　　　　数据流: hbase -> mapreduce -> mysql
　　Hive
　　　　数据流：hbase -> hive -> hdfs -> sqoop -> mysql

4.来源HDFS

　　这些数据是在flume中收集来的数据，这些数据在前面已经被上传到HDFS。

以上是关于ETL的数据来源，处理，保存的主要内容，如果未能解决你的问题，请参考以下文章