大数据框架

Posted 遗忘的代码

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据框架相关的知识,希望对你有一定的参考价值。

大数据技术框架

  1. 存储引擎:存储海量数据
    分布式文件系统HDFS mysql 分布式的消息队列
    分布式的搜索引擎 keyvalue内存数据库
  2. 分析引擎:分析主要数据用途
    并行计算引擎
    数据仓库共计 HIVE
    内存分析工具
    分布式OALP分析框架
    Spark 统一分析引擎:批处理、离线分析
    Flink 实时流式分析引擎:流式处理、实时分析
  3. 辅助框架:
    分布式集群资源管理
    数据转换
    日志的采集
    调度框架

SPARK框架

基础环境

环境搭建

离线分析

 SParkCore(RDD)、SparkSQL、离线综合实战

实时分析

SparkStreaming StructuredStreaming 实时的综合实战

针对大数据的分析引擎。可以运行在本地环视和集群模式。

  • 本地模式(Local Mode):启动JVM进程,运行所有Task任务;
  • 集群模式(Cluster Mode):运行应用在YARN集群或者框架自身集群Standalone,启动多个JVM进程,运行Task程序;
    管理者:AppMaster(MR)、Driver Program(Spark)、JobManager(Flink)
    干活的:JVM进程晕车Task任务,MapTask和ReaduceTask(MR)、Executer(Spark)、TaskManager(Flink)

Spark框架的概述

Spark 	是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分销AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目,是Scala进行编写项目框架。
		用于大规模数据处理的同意分析引擎。核心数据结构是:RDD(弹性分布式数据集)
		处理数据时,将数据封装到集合RDD,RDD中有很多分区PAR提欧尼,每个分区数据被1个Task处理。

Spark特点

  1. 速度快
  2. 使用容易
  3. 通用
  4. 运行方式

Spark模块

以上是关于大数据框架的主要内容,如果未能解决你的问题,请参考以下文章

大数据从0到一(Hadoop)

如何搭建基于Hadoop的大数据平台

oschina大数据开源软件

数据仓库和Hadoop大数据平台有什么差别?

大数据之三:几个名词

大数据hadoop领域技术总体介绍(各个组件的作用)