CDH和CloudManager概述
Posted 阿甘兄_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CDH和CloudManager概述相关的知识,希望对你有一定的参考价值。
文章目录
01 CDH概述
1.1 CDH简介
CDH(Cloudra’s Distribution Apache Of Hadoop) 是集成多种技术的一个框架,是Apache Hadoop
和相关项目的最完整,经过测试和最流行的发行版,它提供:
- 灵活性:存储任何类型的数据并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算。
- 集成:在可与广泛的硬件和软件解决方案一起使用的完整Hadoop平台上快速启动并运行。
- 安全性:处理和控制敏感数据。
- 可扩展性:启用广泛的应用程序并进行扩展,并扩展它们以满足您的要求。
- 高可用性:自信地执行关键任务业务任务。
- 兼容性:利用您现有的IT基础架构和投资。
1.2 CDH架构
了解CDH
架构之前,先来看看hadoop
的生态构成:
组件 | 描述 |
HDFS | 分布式文件系统(ZKFC:为实现NameNode高可用,在NameNode和Zookeeper之间传递信息,选举主节点工具。NameNode:存储文件元数据DateNode:存储具体数据JournalNode:同步主NameNode节点数据到从节点NameNode) |
MapReduce | 开源的分布式批处理计算框架 |
Spark | 分布式基于内存的批处理框架 |
Zookeeper | 分布式协调管理 |
Yarn | 调度资源管理器 |
HBase | 基于HDFS的NoSql列式数据库 |
Hive | 将SQL转换为MapReduce进行计算 |
Hue | 是CDH的一个UI框架 |
Impala | 是Cloudra公司开发的一个查询系统,类似于Hive,可以通过SQL执行任务,但是它不基于MapReduce算法,而是直接执行分布式计算,这样就提高了效率 |
oozie | 是一个工作流调度引擎,负责将多个任务组合在一起按序执行 |
kudu | Apache Kudu是转为hadoop平台开发的列式存储管理器,和impala结合使用,可以进行增删改查。 |
Sqoop | 将hadoop和关系型数据库互相转移的工具 |
Flume | 采集日志 |
其它 | … |
前面已经说了,CDH
是集成多种技术的一个框架,其实就是Hadoop
的扩展版本,那么它究竟包含了什么,下面看看一张图:
1.3 CloudManager
前面了解了cdh
为何物?那么是否有相关的可视化操作平台呢?当然有,也就是现在要讲的CM
(Cloudra Manager
),它的结构图如下:
CM
是一个web
操作平台,可以安装CDH
然后再安装多种Hadoop
框架,它的组件如下:
- Clients:客户端,通过
web
页面和ClouderaManager
和服务器进行交互; - API:通过
API
和ClouderaManagement
和服务器进行交互; - Cloudera Repository:存储分发安装包;
- Management Server:进行监控和预警;
- Database:存储预警信息和配置信息;
- Agent:分布在多台服务器,负责配置,启动和停止进程。监控主机。
02 CloudManager组件安装(CDH、Impala、Hue、oozie等服务 )
详细安装步骤参考:javascript:void(0)
这里大致描述安装的的流程:
- 准备三台主机,安装CentOS(设置网络和主机名->修改主机别名->设置cdh1对其它主机免密钥->关闭防火墙->禁止开机启动->SELINUX关闭)
- 安装
mysql
- 安装
JDK
- 安装
NTP
(时间管理器,用于同步时间) - 为
CM
配置Repository
(就是rpm
仓库) - 安装
Cloudera Manager
服务 - 配置
MySql
- 设置
Cloudea Manager
数据库 - 安装
CDH
和其它软件,登录CloudManager
操作
03 文末
本文主要讲解了CDH
以及CloudManager
的概念,希望能帮助到大家,谢谢大家的阅读!
以上是关于CDH和CloudManager概述的主要内容,如果未能解决你的问题,请参考以下文章