2021年1月31日后使用Ambari部署HDP和HDF集群(上)迅雷YYDS

Posted 技术补完计划

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2021年1月31日后使用Ambari部署HDP和HDF集群(上)迅雷YYDS相关的知识,希望对你有一定的参考价值。

背景

2018年10月4日,两家大数据先驱Cloudera和Hortonworks宣布平等合并。Cloudera以股票方式收购Hortonworks,Cloudera股东最终获得合并公司60%的股份。
2020年11月,Cloudera宣布:从2021年1月31日开始,所有Cloudera软件都需要有效的订阅进行访问。这包括以下产品的所有先前版本:包含Apache Hadoop的 Cloudera 发行版 (CDH),Hortonworks Data Platform (HDP),Data Flow (HDF / CDF) 和Cloudera Data Science Workbench (CDSW) 。

内容简介

这个系列将分为三部分内容:

  1. 迅雷YYDS(部署Ambari本地镜像仓库)
  2. 安装ambari-server和ambari-agent
  3. 部署Ambari大数据集群

下载资源

由于封锁,我们无法下载到需要的资源。笔者在尝试过各种方法之后,想起了一个被人遗忘的工具——迅雷。

开通会员后,居然可以直接使用官网连接下载需要的资源。我想,应该是以前有人下载过对应的资源,迅雷将其缓存在其服务器中了。我又将这些资源上传到百度网盘和阿里云盘,发现几乎是秒传。所以你们懂的!
相应的下载链接,我将会放到参考资料中。
这里,笔者也准备一套资源“Ambari 2.7.5及其配套的HDP和HDF资源包”。

搭建环境

虚拟机:Oracle VM VirtualBox

操作系统镜像:CentOS-7-x86_64-Minimal-2009.torrent.iso

创建了3台虚拟,都分配了2个核和4GB内存,网络使用“NAT 网络”,可以参考我的文章“使用VirtualBox搭建一套集群环境”。

同时,需要给每台机器配置对应hostname,可以这样配置master

hostnamectl set-hostname master

其余的节点为“worker1”和“worker2”,然后可以查看各节点ip

ip addr show

最后,配置一下/etc/hosts,注意使用自己本机的ip,不要复制粘贴

vi /etc/hosts

在文件末尾追加如下内容

10.0.2.5 master
10.0.2.6 worker1
10.0.2.7 worker2

下面我们正式进入部署Ambari镜像仓库的部分。

部署Ambari本地镜像仓库

安全配置

永久开启80端口

firewall-cmd --zone=public --add-port=80/tcp --permanent

重启防火墙

firewall-cmd --reload

关闭SELinux

vi /etc/selinux/config

将SELINUX的值修改为=disabled,然后

reboot

接下来还需要在VirtualBox上配置端口转发规则

安装nginx

安装yum-utils

yum install -y yum-utils

配置Nginx的YUM源

vi /etc/yum.repos.d/nginx.repo

内容如下

[nginx-stable]
name=nginx stable repo
baseurl=http://nginx.org/packages/centos/$releasever/$basearch/
gpgcheck=1
enabled=1
gpgkey=https://nginx.org/keys/nginx_signing.key
module_hotfixes=true

[nginx-mainline]
name=nginx mainline repo
baseurl=http://nginx.org/packages/mainline/centos/$releasever/$basearch/
gpgcheck=1
enabled=0
gpgkey=https://nginx.org/keys/nginx_signing.key
module_hotfixes=true

安装Nginx

yum install -y nginx

启动Nginx

systemctl start nginx

使用浏览器访问localhost,当出现下来的内容时,说明nginx已经安装成功啦!

设置nginx开机自启动

systemctl enable nginx

配置镜像仓库

正经人谁用默认的配置文件?所以:

mv /etc/nginx/conf.d/default.conf /etc/nginx/conf.d/default.conf.bak

这里补充一下,备份而不是删除是个好习惯!

创建ambari.conf

vi /etc/nginx/conf.d/ambari.conf

内容如下

server {
    listen 80;
    server_name localhost;

    location / {
        root /var/www/html;
        autoindex on;
    }

    error_page   500 502 503 504  /50x.html;
    location = /50x.html {
        root   /usr/share/nginx/html;
    }
}

创建目录

mkdir -p /var/www/html

将下列资源上传到/var/www/html

  • ambari-2.7.5.0-centos7.tar.gz
  • HDP-3.1.5.6091-centos7-rpm.tar.gz
  • HDF-3.4.1.1-centos7-rpm.tar.gz
  • HDP-GPL-3.1.5.0-centos7-gpl.tar.gz
  • hdf-ambari-mpack-3.4.1.1-4.tar.gz
  • HDP-UTILS-1.1.0.22-centos7.tar.gz

解压ambari-2.7.5.0-centos7.tar.gz到/var/www/html

tar xf ambari-2.7.5.0-centos7.tar.gz -C /var/www/html

创建hdf和hdp文件夹

mkdir -p /var/www/html/hdf && mkdir -p /var/www/html/hdp

解压相关文件到对应的文件夹

tar xf HDF-3.4.1.1-centos7-rpm.tar.gz -C /var/www/html/hdf && tar xf HDP-UTILS-1.1.0.22-centos7.tar.gz -C /var/www/html/hdp && tar xf HDP-GPL-3.1.5.0-centos7-gpl.tar.gz -C /var/www/html/hdp

重启Nginx

systemctl restart nginx

在左上角出现“Index of /”,说明配置成功。
修改ambari.repo

vi /var/www/html/ambari/centos7/2.7.5.0-72/ambari.repo

主要修改baseurl和gpgkey,将public-repo-1.hortonworks.com替换为master

#VERSION_NUMBER=2.7.5.0-72
[ambari-2.7.5.0]
#json.url = http://public-repo-1.hortonworks.com/HDP/hdp_urlinfo.json
#VERSION_NUMBER=2.7.5.0-72
[ambari-2.7.5.0]
#json.url = http://public-repo-1.hortonworks.com/HDP/hdp_urlinfo.json
name=ambari Version - ambari-2.7.5.0
baseurl=http://master/ambari/centos7/2.7.5.0-72/
gpgcheck=1
gpgkey=http://master/ambari/centos7/2.7.5.0-72/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1
priority=1

至此,一个本地镜像仓库已经部署完毕。

参考资料

关于Cloudera软件的访问获取
nginx: Linux packages
Accessing HDP Repositories
HDF Repository Locations

以上是关于2021年1月31日后使用Ambari部署HDP和HDF集群(上)迅雷YYDS的主要内容,如果未能解决你的问题,请参考以下文章

Ambari 2.6.0 HDP 2.6.3集群搭建

安装 ambari-metrics-monitor HDP 2.3 时出错

原创大数据基础之Ambari通过Ambari部署Airflow

使用 ambari UI 在 HDP 集群中编辑 hdfs-default.xml

基于hortonworks的大数据集群环境部署流水

基于hortonworks的大数据集群环境部署流水