开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群

Posted 2022-08-12 数栈DTinsight

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群相关的知识，希望对你有一定的参考价值。

课件获取：关注公众号 “数栈研习社”，后台私信 “ChengYing” 获得直播课件

视频回放：点击这里

ChengYing 开源项目地址：github 丨 gitee 喜欢我们的项目给我们点个__ STAR！STAR！！STAR！！！（重要的事情说三遍）__

技术交流钉钉 qun：30537511

本期我们带大家回顾一下海洋同学的直播分享《ChengYing 部署 Hadoop 集群实战》

一、Hadoop 集群部署准备

在部署集群前，我们需要做一些部署准备，首先我们需要按照下载 Hadoop 产品包：

● mysql

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Mysql_5.7.38_centos7_x86_64.tar

● Zookeeper

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Zookeeper_3.7.0_centos7_x86_64.tar

● Hadoop

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Hadoop_2.8.5_centos7_x86_64.tar

● Hive

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Hive_2.3.8_centos7_x86_64.tar

● Spark

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Spark_2.1.3-6_centos7_x86_64.tar

接着我们可以将下载好的产品包直接通过 ChengYing 界面上传，具体路径是：部署中心 — 组件管理 — 组件列表 — 上传组件安装包：

开源项目丨一文详解一站式大数据平台运维管家

可以通过两种模式上传产品包：

本地上传方式

产品包在先下载到本机电脑存储中，点击本地上传，选在产品包上传。

开源项目丨一文详解一站式大数据平台运维管家

网络上传模式

直接填写产品包网络地址上传（ChengYing 的网络需要和产品包网络互通）。

开源项目丨一文详解一站式大数据平台运维管家

Hadoop 集群部署流程

做完准备后，我们可以开始进入集群部署，Hadoop 集群部署流程包括以下步骤：

开源项目丨一文详解一站式大数据平台运维管家

集群部署顺序说明

首先需要部署 Mysql 和 zookeeper，因为 Hadoop 需要依赖 zookeeper，Hive 元数据存储使用的是 Mysql；
其次需要部署 Hadoop，Hive
最后部署 Spark，因 Spark 依赖 hivemetastore

PS：部署顺序是不可逆的

Hadoop 集群部署角色分布

开源项目丨一文详解一站式大数据平台运维管家

产品包标准部署流程

开源项目丨一文详解一站式大数据平台运维管家

选择需要部署的产品包，点击部署按钮，然后选择对应需要部署的集群，默认集群为 dtstack，集群名称可配置；
下一步选择需要部署的服务，默认产品包下的服务都会部署，可以根据实际需求部署，在此阶段可以对服务的配置文件进行修改，例如：修改 Mysql 连接超时时间等；
最后点击部署，等待部署完成。

Mysql 服务部署流程演示

接下来我们以 Mysql 服务部署流程来为大家实际演示下整体流程：

● 第一步：选择集群

开源项目丨一文详解一站式大数据平台运维管家

● 第二步：选择产品包

开源项目丨一文详解一站式大数据平台运维管家

● 第三步：选择部署节点

开源项目丨一文详解一站式大数据平台运维管家

● 第四步：部署进度查看

开源项目丨一文详解一站式大数据平台运维管家

● 第五步：部署后状态查看

开源项目丨一文详解一站式大数据平台运维管家

Hadoop 集群使用与运维

集群部署完毕后，若有需求可以进行配置变更操作。

● 配置修改

例如：如果需要操作修改 yarn 的配置文件，可以先选择 yarn-site.xml 文件，可以在搜索框搜索需要修改的配置文件 key，如 cpu_vcores。

开源项目丨一文详解一站式大数据平台运维管家

● 配置保存

开源项目丨一文详解一站式大数据平台运维管家

● 配置下发

开源项目丨一文详解一站式大数据平台运维管家

Taier 对接 Hadoop 操作流程

ChengYing 除了可自动部署运维外，还可以对接 Taier 部署 Hadoop 集群，Taier 是一个大数据分布式可视化的 DAG 任务调度系统，旨在降低 ETL 开发成本、提高大数据平台稳定性，大数据开发人员可以在 Taier 直接进行业务逻辑的开发，而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现，将工作的重心更多地聚焦在业务之中。

利用 ChengYing 部署管理 Taier 服务，可以做到实时监控 Taier 的服务状态，随时界面修改 Taier 配置等。Taier 对接 Hadoop 集群的操作流程如下：

开源项目丨一文详解一站式大数据平台运维管家