1.ETL
数据来源:HDFS
处理方式:Mapreduce
数据保存:HBase
2.为什么保存在Hbase中
数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合
因为我们的分析一般情况下,是对于部分事件数据进行分析的,不需要所有的数据,希望将数据的初步过滤放到服务器上进行操作,所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
3.数据处理
MapReduce
数据流: hbase -> mapreduce -> mysql
Hive
数据流:hbase -> hive -> hdfs -> sqoop -> mysql
4.来源HDFS
这些数据是在flume中收集来的数据,这些数据在前面已经被上传到HDFS。