大数据框架

Posted 2023-03-03 遗忘的代码

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据框架相关的知识，希望对你有一定的参考价值。

大数据技术框架

存储引擎：存储海量数据
分布式文件系统HDFS mysql 分布式的消息队列
分布式的搜索引擎 keyvalue内存数据库
分析引擎：分析主要数据用途
并行计算引擎
数据仓库共计 HIVE
内存分析工具
分布式OALP分析框架
Spark 统一分析引擎：批处理、离线分析
Flink 实时流式分析引擎：流式处理、实时分析
辅助框架：
分布式集群资源管理
数据转换
日志的采集
调度框架

SPARK框架

基础环境

环境搭建

离线分析

 SParkCore（RDD）、SparkSQL、离线综合实战

实时分析

SparkStreaming StructuredStreaming 实时的综合实战

针对大数据的分析引擎。可以运行在本地环视和集群模式。

本地模式（Local Mode）:启动JVM进程，运行所有Task任务；
集群模式（Cluster Mode）:运行应用在YARN集群或者框架自身集群Standalone，启动多个JVM进程，运行Task程序；
管理者：AppMaster（MR）、Driver Program（Spark）、JobManager(Flink)
干活的：JVM进程晕车Task任务，MapTask和ReaduceTask（MR）、Executer(Spark)、TaskManager(Flink)

Spark框架的概述

Spark 	是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分销AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目，是Scala进行编写项目框架。
		用于大规模数据处理的同意分析引擎。核心数据结构是：RDD（弹性分布式数据集）
		处理数据时，将数据封装到集合RDD，RDD中有很多分区PAR提欧尼，每个分区数据被1个Task处理。

Spark特点

速度快
使用容易
通用
运行方式

Spark模块

以上是关于大数据框架的主要内容，如果未能解决你的问题，请参考以下文章

大数据从0到一(Hadoop)

如何搭建基于Hadoop的大数据平台

oschina大数据开源软件

数据仓库和Hadoop大数据平台有什么差别？

大数据之三：几个名词

大数据hadoop领域技术总体介绍（各个组件的作用）