假如大数据组件中的动物都变成神奇宝贝，那会变成什么样？（大数据的组件动漫化）

Posted 2021-06-12 ChinaManor

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了假如大数据组件中的动物都变成神奇宝贝，那会变成什么样？（大数据的组件动漫化）相关的知识，希望对你有一定的参考价值。

文章目录

- 假如大数据组件中的动物都变成神奇宝贝，那会变成什么样？

假如大数据组件中的动物都变成神奇宝贝，那会变成什么样？

第一个神奇宝贝 Hadoop

在这里插入图片描述

在这里插入图片描述

Hadoop

Hadoop 是采用了 Map Reduce 的一种分布式的计算框架，它是根据 GFS去开发了 HDFS 分布式文件系统，还有根据 Big
Table 开发了 HBase数据存储系统。可以了解到的是，Hadoop 的开源特性成为了分布式计算系统事实上的国际标准。

Hadoop又分为两个模块，分别是HDFS和MapReduce

HDFS

它是由Google File System而来，全称是Hadoop Distributed File
System，是Hadoop的分布式文件系统，有许多机器组成的，可以存储大型数据文件。

它是由NameNode和DataNode组成，NameNode可以配置成HA(高可用)，避免单点故障。一般用Zookeeper来处理。两个NameNode是同步的。

MapReduce

主要由Google Reduce而来，它简化了大型数据的处理，是一个并行的，分布式处理的编程模型。

hadoop2.0它是基于YARN框架构建的。YARN的全称是Yet-Another-Resource-Negotiator。Yarn可以运用在S3|Spark等上。

第二个神奇宝贝 Hive

在这里插入图片描述

Hive

它是Hadoop的数据仓库(DW),它可以用类似SQL的语言HSQL来操作数据，很是方便，主要用来联机分析处理OLAP（On-Line Analytical Processing）,进行数据汇总|查询|分析。

第三个神奇宝贝 Hbase

在这里插入图片描述

第四个神奇宝贝的管理员 Zookeeper

在这里插入图片描述
Zookeeper

它是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

上面的解释有点抽象，简单来说zookeeper=文件系统+监听通知机制。

第五个 Kafka

在这里插入图片描述

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。

第六个 Flume

在这里插入图片描述

apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。

第七个神奇宝贝 Impala

在这里插入图片描述

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

第八个哈利波特与Azkaban

在这里插入图片描述

Azkaban是一套简单的任务调度服务，整体包括三部分webserver、dbserver、executorserver。
是linkin的开源项目，开发语言为Java。
Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。
Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。

第九个神奇宝贝Sqoop

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。