大数据框架
Posted 遗忘的代码
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据框架相关的知识,希望对你有一定的参考价值。
大数据技术框架
- 存储引擎:存储海量数据
分布式文件系统HDFS mysql 分布式的消息队列
分布式的搜索引擎 keyvalue内存数据库 - 分析引擎:分析主要数据用途
并行计算引擎
数据仓库共计 HIVE
内存分析工具
分布式OALP分析框架
Spark 统一分析引擎:批处理、离线分析
Flink 实时流式分析引擎:流式处理、实时分析 - 辅助框架:
分布式集群资源管理
数据转换
日志的采集
调度框架
SPARK框架
基础环境
环境搭建
离线分析
SParkCore(RDD)、SparkSQL、离线综合实战
实时分析
SparkStreaming StructuredStreaming 实时的综合实战
针对大数据的分析引擎。可以运行在本地环视和集群模式。
- 本地模式(Local Mode):启动JVM进程,运行所有Task任务;
- 集群模式(Cluster Mode):运行应用在YARN集群或者框架自身集群Standalone,启动多个JVM进程,运行Task程序;
管理者:AppMaster(MR)、Driver Program(Spark)、JobManager(Flink)
干活的:JVM进程晕车Task任务,MapTask和ReaduceTask(MR)、Executer(Spark)、TaskManager(Flink)
Spark框架的概述
Spark 是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分销AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目,是Scala进行编写项目框架。
用于大规模数据处理的同意分析引擎。核心数据结构是:RDD(弹性分布式数据集)
处理数据时,将数据封装到集合RDD,RDD中有很多分区PAR提欧尼,每个分区数据被1个Task处理。
Spark特点
- 速度快
- 使用容易
- 通用
- 运行方式
Spark模块
以上是关于大数据框架的主要内容,如果未能解决你的问题,请参考以下文章