实时即未来,大数据项目车联网之原始数据实时ELT流式任务流程总结
Posted Maynor996
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实时即未来,大数据项目车联网之原始数据实时ELT流式任务流程总结相关的知识,希望对你有一定的参考价值。
文章目录
1 原始数据实时ETL任务分析结果落地
1 Json解析hdfs数据映射hive表(建议)
l 用StreamingFileSink方法将正确数据和错误数据写入到对应的HDFS目录中后,需要创建对应的hive表,并关联hdfs数据到hive表中,以实现原始数据实时ETL结果数据落地Hive需求。
l 实现步骤:
- 启动 Hive 并启动 Hive 对应的服务
n hive脚本:分别创建外部分区表:正常数据分区表和错误数据分区表。
外部表:删除表时,不会删除表对应的原始数据
分区表: 便于后期使用分区进行数据查询;便于hdfs分目录存放数据与hive分区数据对应,便于数据存放管理
以上是关于实时即未来,大数据项目车联网之原始数据实时ELT流式任务流程总结的主要内容,如果未能解决你的问题,请参考以下文章
实时即未来,大数据项目车联网之原始数据实时ETL任务消费数据策略
实时即未来,大数据项目车联网之原始数据实时ETL任务消费数据策略