基于Hadoop生态的相关框架与组件的搭建

Posted 雨诺风

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于Hadoop生态的相关框架与组件的搭建相关的知识,希望对你有一定的参考价值。

目录

一、前言

安装包

二、linux配置

1、配置网络参数

2、永久关闭防火墙

3、添加IP地址配置映射表

4、SSH免密登录设置

5、配置时间同步

三、准备工作

四、jdk安装

五、Zookeeper集群部署

1、Zookeeper集群启动脚本编写

 六、Hadoop高可用集群部署

1、安装配置

 2、修改配置文件

(1) 修改 hadoop-env.sh 文件

(2)修改 core-site.xml 文件

(3) 修改 hdfs-site.xml 文件

(4) 修改 mapred-site.xml 文件

(5) 修改 yarn-site.xml 文件

(6)修改 slaves 文件

(7)分发节点

3、启用Hadoop高可用集群

七、Spark高可用集群部署

1、安装部署

2、配置文件

(1) 配置spark-env.sh

(2) 配置Workers文件

(3)配置spark-defaults.conf文件

注意事项

3、分发文件

4、启动Spark HA集群

脚本编写

5、Scala安装

八、Hbase高可用集群部署

1、安装配置

2、文件配置

(1)修改hbase-site.xml文件

(2)修改hbase-env.sh文件

(3) 修改regionservers文件

(4)配置备用HMaster

(5)复制hadoop配置文件

(6) 修改hbase-env.sh文件

3、分发文件

4、启动集群

5、Phoenix安装

九、Kafa集群部署

1、安装配置

2、修改配置文件

(1)修改server.properties配置文件

3、分发节点

4、启动集群

十、Hive数据仓库部署

1、安装配置

2、Mysql安装和配置

3、修改配置文件

(1)修改hive-env.sh文件

(2)修改hive-site.xml文件

(3)初始化数据仓库hive

注意事项

4、分发文件

5、设置 hadoop 的代理用户,以便 root 用户能够远程登录访问Hive

6、Hive启动

十一、Sqoop数据转移工具部署

1、安装配置

2、修改文件配置

(1)修改sqoop-env.sh文件

3、分发文件

十二、Flume日志采集系统部署

1、安装配置

2、文件配置

3、分发文件

十三、Azkban工作流管理器部署

1、解压安装

2、数据库配置

3、Azkaban Web 服务配置

(1)SSL创建

(2)Azkaban Web 服务器配置        

(3)配置azkaban.properties

(4)配置azkaban-users.xml

(5)配置log4j.properties

4、azkaban-exec-server配置

5、Azkzban启动测试


一、前言

        本篇文章,着重与Hadoop生态的相关框架与组件的搭建,以及不同框架或组件之间的依赖配置,使读者能够熟悉与掌握Hadoop集群的搭建,对于Hadoop生态有一定的认识。本次搭建三台虚拟机为hadoop01.bgd01、hadoop02.bgd01、hadoop03.bgd01,hadoop01.bgd01为主节点,其中所需的素材,笔者已放入网盘中,有需要的的可自行下载。

        关于虚拟机的搭建,可参考笔者之前的系列文章,这里只对虚拟机的一些配置进行描述。

https://blog.csdn.net/weixin_63507910/article/details/128495937https://blog.csdn.net/weixin_63507910/article/details/128495937

安装包

http://链接: https://pan.baidu.com/s/1WBv0FRS8p8baMmEDf8e6UA?pwd=kk3a 提取码: kk3a

二、linux配置

1、配置网络参数

分别在三台虚拟机上修改配置
根据实际情况,修改文件的最后6行参数值即可。
vi /etc/sysconfig/network-scripts/ifcfg-ens33

NAME=ens33
UUID=f8e4ef31-ed55-4b0a-af1e-90cba2287b72
DEVICE=ens33
ONBOOT=yes                 #是否开机启用
HWADDR=00:0C:29:B4:C8:38
BOOTPROTO=static           #使用静态IP地址
IPADDR=192.168.8.121      #IP地址
PREFIX=24                  #子网掩码:255.255.255.0
GATEWAY=192.168.8.1       #网关
DNS1=172.16.1.2            #域名服务器1
DNS2=8.8.8.8               #域名服务器2

执行如下命令,重启网络服务:
systemctl restart network

2、永久关闭防火墙

执行如下命令关闭防火墙:
systemctl stop firewalld

执行如下命令关闭防火墙开机启动:
systemctl disable firewalld
执行命令成功后,会出现如下2行信息。
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

3、添加IP地址配置映射表

在第一台虚拟机上打开终端,执行如下命令,编辑文件:
vi /etc/hosts
在文件尾部追加3行,文件内容如下:

127.0.0.1   localhost localhost.hugs localhost4 localhost4.localdomain4
::1         localhost localhost.hugs localhost6 localhost6.localdomain6
#三台虚拟的IP地址加主机名,按照下面格式
192.168.8.121 hadoop01.bgd01
192.168.8.122 hadoop02.bgd01
192.168.8.123 hadoop03.bgd01

4、SSH免密登录设置

(1) 利用ssh-keygen生成密钥对。
    在hadoop01.bgd01上,进入root用户主目录 /root,执行如下命令,生成 .ssh 目录和密匙对及免密登录授权文件:
    执行如下命令,生成密匙对:
    ssh-keygen -t rsa 

    下面是生成密匙对的过程:
    Generating public/private rsa key pair. #提示生成 公/私 密匙对
    Enter file in which to save the key (/root/.ssh/id_rsa):    #提示保存私匙的目录路径及文件名,按回车
    Created directory '/root/.ssh'.  #在“/root”下创建了“.ssh”目录
    Enter passphrase (empty for no passphrase):  #提示输入密码短语,如果不需要,按回车
    Enter same passphrase again:    #提示再次输入相同密码短语,如果不需要,按回车
    Your identification has been saved in /root/.ssh/id_rsa.  #生成了密匙文件id_rsa
    Your public key has been saved in /root/.ssh/id_rsa.pub.  #生成了公匙文件id_rsa.pub

    分别在hadoop02.bgd01、在hadoop03.bgd01上,执行相同的操作,生成密匙对。

(2) 将公钥合并到hadoop01.bgd01上的authorized_keys文件中。
    分别在hadoop01.bgd01、hadoop02.bgd01、hadoop03.bgd01上执行如下命令:
    ssh-copy-id hadoop01.bgd01
    出现如下提示时,按#提示操作:
    Are you sure you want to continue connecting (yes/no)?   #输入"yes"
    root@hadoop01.hugs's password:    #输入hadoop01.hugs的root账号密码

    这样就完成了对公匙的合并。hadoop01.bgd01的“/root/.ssh”目录下会产生公匙授权文件 authorized_keys。其实该步操作是将三台主机上id_rsa.pub中的内容合并添加到authorized_keys中。

(3) 实现hadoop01、hadoop02、hadoop03之间的相互免密码登录。
    在hadoop01上执行如下命令,将hadoop01上的公匙授权文件 authorized_keys 同步分发给hadoop02到hadoop03 :
    scp /root/.ssh/authorized_keys hadoop02.bgd01:/root/.ssh/
    执行该命令时,会提示输入hadoop02.hugs的root登录密码,输入相应密码即可。

    scp /root/.ssh/authorized_keys hadoop03.bgd01:/root/.ssh/
    执行该命令时,会提示输入hadoop03.hugs的root登录密码,输入相应密码即可。

    以后三台主机之间,相互登录其它主机就不需要输入密码了。登录命令如下:
    ssh 主机名称

(4) 使用ssh命令,测试免密登录。
    在任意一台主机上执行命令:
    ssh localhost
    发现不需要输入密码就登录到本地主机了。
    此时因为我们使用的就是root账户,目标登陆账户也是root,所以登陆之后用户没有变化,会造成没有反应的感觉。
然后,输入命令exit退出刚才的SSH,就回到了原先的终端窗口。

    将上述命令中的localhost换成hadoop01.bgd01、hadoop02.bgd01或hadoop03.bgd01,无需输入密码就可以免密登录相应主机了。

5、配置时间同步

安装Chrony
在三台主机上在线安装时间同步Chrony
yum install chrony -y

启动Chrony服务
在三台虚拟机上启动时间同步工具Chrony服务
systemctl start chronyd

启动报错
可能是下载的版本是最新版,与Linux内核起冲突
可以尝试以下指令
yum -y update

配置Chrony信息
vi /etc/chrony.cof

在主节点,hadoop01.bgd01配置如下
#不使用网络服务器作为时间同步源
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
#添加时间同步器,将主节点的虚拟机作为时间服务同步时间
#这里填写自己虚拟机的主机名或IP地址
server hadoop01.bgd01 iburst

# Allow NTP client access from local network.
#允许192.168.8.0网段的客户端可以与时间服务器同步时间
allow 192.168.8.0/16

# Serve time even if not synchronized to a time source.
#即使时间服务器不能获取网络时间,也会将本地时间做为标准时间赋予其他客户端
local stratum 10

在另外两台虚拟机hadoop02.bgd01、hadoop03.bgd01配置如下
#不使用网络服务器作为时间同步源
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
#添加时间同步器,将主节点的虚拟机作为时间服务同步时间
server hadoop01.bgd01 iburst

重启Chrony服务
分别在三台虚拟机重启Chrony服务,使配置生效
systemctl restart chronyd

查看时间同步源状态
chronyc sources -v

210 Number of sources = 1

  .-- Source mode  '^' = server, '=' = peer, '#' = local clock.
 / .- Source state '*' = current synced, '+' = combined , '-' = not combined,
| /   '?' = unreachable, 'x' = time may be in error, '~' = time too variable.
||                                                 .- xxxx [ yyyy ] +/- zzzz
||      Reachability register (octal) -.           |  xxxx = adjusted offset,
||      Log2(Polling interval) --.      |          |  yyyy = measured offset,
||                                \\     |          |  zzzz = estimated error.
||                                 |    |           \\
MS Name/IP address         Stratum Poll Reach LastRx Last sample               
===============================================================================
^* hadoop01.bgd01               11   7   377   227    +30us[  +40us] +/- 8251us

三、准备工作

在根目录“/”下创建3个目录
/export/data/ :存放数据类文件
/export/servers/ :存放服务类文件
/export/software/ :存放安装包文件

将所有压缩包上传到/export/software/目录下
预备工作-在主机hadoop01.bgd01上安装上传文件工具rz软件
yum install lrzsz -y

rz

四、jdk安装

用tar命令将jdk安装到 /export/servers/ 目录下。
tar -zvxf jdk-8u161-linux-x64.tar.gz -C /export/servers/

为简便起见,进入/export/servers/目录,执行如下指令重命名“jdk1.8.0_161”为“jdk”:
mv jdk1.8.0_333/ jdk
 
在/etc/profile文件中配置 JDK 系统环境变量(如果不是使用root用户登录,使用 sudo vim /etc/profile 命令打开

export JAVA_HOME=/export/servers/jdk
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

保存后退出。然后执行 "source /etc/profile"指令使配置文件生效。
使用如下命令验证JDK安装是否成功,如果成功,会出现版本等信息。
java -version

五、Zookeeper集群部署

安装Zookeeper
执行解压命令:
tar -zvxf apache-zookeeper-3.4.10-bin.tar.gz -C /export/servers/

/export/servers/下会出现 apache-zookeeper-3.4.10-bin 目录

修改安装目录名称 apache-zookeeper-3.4.10-bin 为 zookeeper
mv /export/servers/apache-zookeeper-3.4.10-bin /export/servers/zookeeper

配置环境变量
在/etc/profile文件中配置Zookeeper环境变量。执行如下命令:
vi /etc/profile
添加如下2行:
export ZK_HOME=/export/servers/zookeeper
export PATH=$PATH:$ZK_HOME/bin

保存后退出。
执行如下命令,使配置文件生效:
source /etc/profile

配置Zookeeper的相关参数
修改Zookeeper的配置文件
进入Zookeeper配置目录:
cd /export/servers/zookeeper/conf

执行如下命令,复制文件
cp zoo_sample.cfg zoo.cfg

编辑文件 zoo.cfg
vi zoo.cfg
    
将行 “dataDir=/tmp/zookeeper” 修改为:
dataDir=/export/data/zookeeper/zkdata
dataLogDir=/export/data/zookeeper/zklog

在文件末尾添加如下几行:
#配置Zookeeper集群的服务其编号及对应的主机名、通信端口号(心跳端口号)和选举端口号
server.1=hadoop01.bgd01:2888:3888
server.2=hadoop02.bgd01:2888:3888
server.3=hadoop03.bgd01:2888:3888
保存后退出。

创建myid文件
创建目录 /export/data/zookeeper/zkdata、/export/data/zookeeper/zklog
mkdir -p /export/data/zookeeper/zkdata
mkdir -p /export/data/zookeeper/zklog

进入 /export/data/zookeeper/zkdata 目录
cd /export/data/zookeeper/zkdata

执行如下命令,创建myid文件(服务器hadoop01对应编号1、服务器hadoop02对应编号2、服务器hadoop03对应编号3):
echo 1 > myid

将配置文件分发到其他虚拟机
scp -r /export/servers/ hadoop02.bgd01:/export/
scp -r /export/servers/ hadoop03.bgd01:/export/

scp -r /export/data/ hadoop02.bgd01:/export/
scp -r /export/data/ hadoop03.bgd01:/export/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

分别在hadoop02.bgd01、hadoop03.bgd01执行以下命令对myid进行修改
vi /export/data/zookeeper/zkdata/myid 
其中hadoop02.bgd01配置为2,hadoop03.bgd01配置为3

然后执行在三台虚拟机"source /etc/profile"指令使配置文件生效。

测试
在三台虚拟机上启动Zookeeper集群
zkServer.sh start

查看集群的状态
zkServer.sh status

hadoop01
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: follower

hadoop02
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: leader

hadoop03
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: follower

关闭集群
zkServer.sh stop

1、Zookeeper集群启动脚本编写

在Zookeeper的bin目录下创建三个脚本,分别为start-zkServer.sh、stop-zkServer.sh、status-zkServer.sh

启动集群
start-zkServer.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01 hadoop02.bgd01 hadoop03.bgd01
do
        ssh $host "source /etc/profile;zkServer.sh start"
        echo "$host zk is running"
done
保存退出

关闭集群
stop-zkServer.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01 hadoop02.bgd01 hadoop03.bgd01
do
        ssh $host "source /etc/profile;zkServer.sh stop"
        echo "$host zk is stopping"
done
保存退出

查看集群状态
status-zkServer.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01 hadoop02.bgd01 hadoop03.bgd01
do
        ssh $host "source /etc/profile;zkServer.sh status"
        echo "$host zk is status"
done
保存退出
因为之前在安装zookeeper的时候,已经将bin目录添加进环境变量中,这里可以在任何目录下执行Shell脚本

操作如下
sh start-zkServer.sh

ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
hadoop01.bgd01 zk is running
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
hadoop02.bgd01 zk is running
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
hadoop03.bgd01 zk is running

sh status-zkServer.sh

ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: follower
hadoop01.bgd01 zk is status
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: leader
hadoop02.bgd01 zk is status
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: follower
hadoop03.bgd01 zk is status

sh stop-zkServer.sh

ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Stopping zookeeper ... STOPPED
hadoop01.bgd01 zk is stopping
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Stopping zookeeper ... STOPPED
hadoop02.bgd01 zk is stopping
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Stopping zookeeper ... STOPPED
hadoop03.bgd01 zk is stopping

 六、Hadoop高可用集群部署

1、安装配置

用tar命令将hadoop安装到 /export/servers/ 目录下
tar -zxvf /export/software/hadoop-2.7.4.tar.gz -C /export/servers/

在/etc/profile文件中, 配置 Hadoop 系统环境变量
    执行如下命令:
    vi /etc/profile
    添加如下2行:
    export HADOOP_HOME=/export/servers/hadoop-2.7.4
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    保存后退出。
    执行如下命令,使配置文件生效:
    source /etc/profile
    
使用如下命令验证hadoop安装是否成功,如果成功,会出现版本等信息。
    hadoop version

 2、修改配置文件

cd /export/servers/hadoop-2.7.4/etc/hadoop/

(1) 修改 hadoop-env.sh 文件

vi hadoop-env.sh
#将这一行该成自己jdl安装的路径
export JAVA_HOME=/export/servers/jdk

(2)修改 core-site.xml 文件

<!-- 指定HDFS的nameservice为ns1,需要和hdfs-site.xml中的保持一致 -->
   <property>
      <name>fs.defaultFS</name>
      <value>hdfs://ns1</value>
   </property>

   <!-- 指定hadoop临时目录 -->
   <property>
      <name>hadoop.tmp.dir</name>
      <value>/export/servers/hadoop-2.7.4/tmpha</value>  #为了便于同伪分布和分布式集群之间切换
   </property>

   <!-- 指定用于ZKFailoverController故障自动恢复的Zookeeper服务器地址,用逗号分隔 -->
   <property>      
      <name>ha.zookeeper.quorum</name>
      <value>hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181</value>
   </property>

   <!-- 指定 Zookeeper 集群服务器的 Host:Port 列表  -->
   <property>
       <name>hadoop.zk.address</name>
       <value>hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181</value>
   </property>

   <!-- 指定 用于ZK故障恢复存储信息的ZooKeeper znode  -->
   <property>
       <name>ha.zookeeper.parent-znode</name>
       <value>/hadoop-ha</value>
   </property>

(3) 修改 hdfs-site.xml 文件

    <!-- 指定HDFS的副本数量 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>

    <!-- 设置NameNode节点数据存放目录 -->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/export/data/hadoop/namenode</value>
    </property>

    <!-- 设置DataNode节点数据存放目录 -->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/export/data/hadoop/datanode</value>
    </property>

    <!-- 开启webHDFS -->
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>

    <!-- 指定HDFS的nameservice为ns1,需要和core-site.xml中的保持一致 -->
    <property>
        <name>dfs.nameservices</name>
        <value>ns1</value>
    </property>

    <!-- ns1下面有两个NameNode,分别是nn1,nn2 -->
    <property>
        <name>dfs.ha.namenodes.ns1</name>
        <value>nn1,nn2</value>
    </property>

    <!-- nn1的RPC通信地址 -->
    <property>
        <name>dfs.namenode.rpc-address.ns1.nn1</name>
        <value>hadoop01.bgd01:9000</value>
    </property>

    <!-- nn1的http通信地址,配置NameNode节点的Web页面访问地址 -->
    <property>
        <name>dfs.namenode.http-address.ns1.nn1</name>
        <value>hadoop01.bgd01:50070</value>
    </property>

    <!-- nn2的RPC通信地址 -->
    <property>
        <name>dfs.namenode.rpc-address.ns1.nn2</name>
        <value>hadoop02.bgd01:9000</value>
    </property>

    <!-- nn2的http通信地址,配置NameNode节点的Web页面访问地址 -->
    <property>
        <name>dfs.namenode.http-address.ns1.nn2</name>
        <value>hadoop02.bgd01:50070</value>
    </property>

    <!-- 指定NameNode的共享edits元数据在JournalNode上的存放位置,一般配置奇数个,以适应zk选举 -->
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://hadoop01.bgd01:8485;hadoop02.bgd01:8485;hadoop03.bgd01:8485/ns1</value>
    </property>

    <!-- 指定JournalNode在本地磁盘存放数据的位置 ,JournalName用于存放元数据和状态信息的目录 -->
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/export/data/hadoop/journaldata</value>
    </property>

    <property>
         <name>ipc.client.connect.max.retries</name>
         <value>30</value>ide
    </property>

    <!-- 开启NameNode失败自动重启 -->
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>

    <!-- 配置失败自动切换实现方式 ,客户端与NameNode通讯的地址 -->
    <property>
        <name>dfs.client.failover.proxy.provider.ns1</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>

    <!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行,解决HA脑裂问题 -->
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>
        sshfence
        shell(/bin/true)
        </value>
    </property>

    <!-- 使用sshfence隔离机制时需要ssh免密登录,上述属性ssh通讯使用的秘钥文件 -->
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value> 
    </property>

    <!-- 配置sshfence隔离机制连接超时时间 -->
    <property>
        <name>dfs.ha.fencing.ssh.connect-timeout</name>
        <value>3000</value>
    </property>

(4) 修改 mapred-site.xml 文件

 先将mapred-site.xml.template 复制到 mapred-site.xml
  <configuration>
    <!-- 指定MapReduce运行时框架,这里指定在YARN上,默认是local -->
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
  </configuration>

(5) 修改 yarn-site.xml 文件

      <property>
           <!-- 该节点上nodemanager可用的物理内存总量,默认是8192M,如果节点内存不够8GB,则需要调整,
                否则NodeManager进程无法启动或者启动后自动结束 -->
           <name>yarn.scheduler.maximum-allocation-mb</name>
           <value>8192</value>
      </property>

      <property>
           <!-- 资源管理器中可分配的内存 -->
           <name>yarn.nodemanager.resource.memory-mb</name>
           <value>8192</value>
      </property>

      <property>
           <!-- NodeManager 可以分配的CPU核数 -->
           <name>yarn.nodemanager.resource.cpu-vcores</name>
           <value>8</value>
      </property>

      <!-- 开启resourcemanager高可用 -->
      <property>
           <name>yarn.resourcemanager.ha.enabled</name>
           <value>true</value>
      </property>

      <!-- 指定resourcemanager的cluster id -->
      <property>
           <name>yarn.resourcemanager.cluster-id</name>
           <value>yrc</value>
      </property>

      <!-- 指定resourcemanager的名字 -->
      <property>
           <name>yarn.resourcemanager.ha.rm-ids</name>
           <value>rm1,rm2</value>
      </property>

      <!-- 分别指定resourcemanager的地址 -->
      <property>
           <name>yarn.resourcemanager.hostname.rm1</name>
           <value>hadoop01.bgd01</value>
      </property>
      <property>
           <name>yarn.resourcemanager.hostname.rm2</name>
           <value>hadoop02.bgd01</value>
      </property>

      <!-- 指定 Zookeeper 集群服务器的 Host:Port 列表  -->
      <property>
           <name>yarn.resourcemanager.zk-address</name>
           <value>hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181</value>
      </property>

      <!-- 开启自动恢复功能  -->
      <property>
           <name>yarn.resourcemanager.recovery.enabled</name>
           <value>true</value>
      </property>

      <!-- 开启故障自动转移  -->
      <property>
           <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
           <value>true</value>
      </property>

      <!-- 指定rm的web访问地址的 -->
      <property>
           <name>yarn.resourcemanager.webapp.address.rm1</name>
           <value>$yarn.resourcemanager.hostname:8088</value>
      </property>

      <property>
           <name>yarn.resourcemanager.webapp.address.rm2</name>
           <value>$yarn.resourcemanager.hostname:8088</value>
      </property>

      <property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
      </property>

      <!-- ResourceManager存储信息的方式,在HA机制下用Zookeeper作为存储介质 -->
      <property>
           <name>yarn.resourcemanager.store.class</name>
           <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
      </property>

      <!-- 开启YARN日志 -->
      <property>
           <name>yarn.log-aggregation-enable</name>
           <value>true</value>
      </property>

(6)修改 slaves 文件

hadoop01.bgd01
hadoop02.bgd01
hadoop03.bgd01

(7)分发节点

scp -r /export/servers/hadoop-2.7.4 hadoop02.bgd01:/export/servers/
scp -r /export/servers/hadoop-2.7.4 hadoop03.bgd01:/export/servers/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop02.bgd01:/etc/

执行完上述命令后,还需在hadoop02、hadoop03上分别执行"source /etc/profile"指令立即刷新配置文件。

3、启用Hadoop高可用集群

1、启动集群各个节点上的Zookeeper服务
    zkServer.sh start

2、启动集群各个节点监控NameNode的管理日志的JournalNode
   hadoop-daemons.sh start journalnode
   注:只需在第一次初始化启动集群时运行一次。以后每次启动集群,journalnode会在步骤 5、start-dfs.sh中启动。

3、在hadoop01格式化NameNode,并将格式化后的目录复制到hadoop02中
    hdfs namenode -format
   (执行格式化指令后必须出现 successfulluy formatted 才表示格式化成功。)
    scp -r /export/data/hadoop hadoop02.bgd01:/export/data/

4、在hadoop01格式化ZKFC
   hdfs zkfc -formatZK

5、在Hadoop01上启动所有HDFS服务进程
    start-dfs.sh

6、在Hadoop01上启动所有YARN服务进程
    start-yarn.sh

7、查看服务进程
集群启动后,如果正常,执行命令
    JPS
查看进程。
hadoop01上可以查看到如下进程:
   NameNode
   DFSZKFailoverController
   ResourceManager
   DataNode
   Jps
   JournalNode
   NodeManager
   QuorumPeerMain

hadoop02上可以查看到如下进程:
   NameNode
   DFSZKFailoverController
   DataNode
   Jps
   JournalNode
   NodeManager
   QuorumPeerMain

hadoop03上可以查看到如下进程:
   DataNode
   Jps
   JournalNode
   NodeManager
   QuorumPeerMain

在浏览器中查看和管理集群。
1、Hadoop状态查看
http://hadoop01.bgd01:50070/dfshealth.html

2、HDFS状态查看
http://hadoop01.bgd01:50070/explorer.html

3、YARN状态查看
http://hadoop01.bgd01:8088/cluster

六、关闭Hadoop集群
1、在Hadoop01上关闭所有YARN服务进程
    stop-yarn.sh

2、在Hadoop01上关闭所有HDFS服务进程
    stop-dfs.sh

3、在集群各个节点上的关闭Zookeeper服务
    zkServer.sh stop

七、Spark高可用集群部署

1、安装部署

解压Spark压缩包到/export/servers/目录下,并进行重名命名
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/servers/
mv /export/servers/spark-2.3.2-bin-hadoop2.7 /export/servers/spark

配置环境变量
vi /etc/profile
export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin

使环境变量生效
source /etc/profile

2、配置文件

进入Spark安装目录conf/目录下,进行相关配置
cd /export/servers/spark/conf/

(1) 配置spark-env.sh

复制spark-env.sh.template文件,重命名为spark-env.sh
cp spark-env.sh.template spark-env.sh

进入spark-env.sh,添加如下配置
vi spark-env.sh

#Java的安装路径
export JAVA_HOME=/export/servers/jdk
#Hadoop配置文件的路径
export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.4/etc/hadoop/
#Spark高可用配置
#设置Zookeeper去启动备用Master模式
#spark.deploy.recoveryMode:设置Zookeeper去启动备用Master模式
#spark.deploy.zookeeper.url:指定Zookeeper的Server地址
#spark.deploy.zookeeper.dir:保存集群元数据信息的文件和目录
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181
-Dspark.deploy.zookeeper.dir=/spark"
#Spark主节点的端口号
export SPARK_MASTER_PORT=7077
#工作(Worker)节点能给予Executor的内存大小
export SPARK_WORKER_MEMORY=512m
#每个节点可以使用的内核数
export SPARK_WORKER_CORES=1
#每个Executor的内存大小
export SPARK_EXECUTOR_MEMORY=512m
#Executor的内核数
export SPARK_EXECUTOR_CORES=1
#每个Worker进程数
export SPARK_WORKER_INSTANCES=1

(2) 配置Workers文件

复制workers.template文件,重命名为 workers,删除原有内容,添加如下配置
cp slaves.template slaves
vi slaves

#每行代表一个子节点主机名
hadoop02.bgd01
hadoop03.bgd01

(3)配置spark-defaults.conf文件

复制spark-defaults.conf.template文件,重命名为spark-defaults.conf,添加如下配置
cp spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf

#Spark主节点所在机器及端口号,默认写法是spark://
spark.master                    spark://hadoop01.bgd01:7077
#是否打开任务日志功能,默认为flase,即不打开
spark.eventLog.enabled          true
#任务日志默认存放位置,配置为一个HDFS路径即可
spark.eventLog.dir              hdfs://ns1/spark-logs
#存放历史应用日志文件的目录
spark.history.fs.logDirectory   hdfs://ns1/spark-logs

注意事项

这里需要注意,hadoop的各个端口号的区别:
8020是默认rpc的端口号,一般用于IDE远程使用Hadoop集群,是程序和程序之间的连接。
9000端口:是HDFS默认的端口号,提供文件系统的端口供client角色寻找namenode角色的端口号,是进程之间的调用。
但是在core-site.xml文件的配置当中,如果hdfs://ns1:9000改为hdfs://ns1,则默认端口号为8020
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://ns1:9000</value>
</property>

50070:namenode提供给操作者使用Web访问的端口号,是操作者和程序之间的端口号
<property>
  <name>dfs.namenode.http-address.mycluster.nn1</name>
  <value>hadoop01.bgd01:50070</value>
</property>

50090:secondarynamenode的端口号,这个也是Web访问的端口号
<property>
   <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop02.bgd01:50090</value>
</property>

hdfs有下面几种角色:namenode,datanode,secondarynamenode,client等

3、分发文件

scp -r /export/servers/spark hadoop02.bgd01:/export/servers/
scp -r /export/servers/spark hadoop03.bgd01:/export/servers/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

在各个节点刷新环境变量
source /etc/profile

4、启动Spark HA集群

启动前在hdfs上创建Spark的日志目录
hadoop fs -mkdir /spark-logs
hadoop fs -ls /
drwxr-xr-x   - root supergroup          0 2023-03-02 23:21 /spark-logs

启动Zookeeper服务
这里使用脚本一键启动
sh start-zkServer.sh

启动Spark集群
在hadoop01主节点使用一键启动脚本启动
/export/servers/spark/sbin/start-all.sh 

单独启动Master节点
在hadoop02节点上再次启动Master服务
/export/servers/spark/sbin/start-master.sh

通过访问http://hadoop02.bgd01:8080可以查看Master节点的状态 

 

脚本编写

由于spark与hadoop的启动指令相似,这里提供一个简单的脚本

在spark的bin目录下编辑两个Shell的脚本,名为start-spark.sh和stop-spark.sh

start-spark.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01
do
        ssh $host "source /etc/profile;/export/servers/spark/sbin/start-all.sh"
        echo "$host Spark is running"
done

stop-spark.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01
do
        ssh $host "source /etc/profile;/export/servers/spark/sbin/stop-all.sh"
        echo "$host Spark is stopping"
done

5、Scala安装

将scala-2.12.15.tgz解压至/export/servers目录下,并重命名
tar -zxvf scala-2.11.12.tgz -C /export/servers/
cd /export/servers/
mv scala-2.11.12 scala

配置环境变量
vi /etc/profile
export SCALA_HOME=/export/servers/scala
export PATH=$PATH:$SCALA_HOME/bin
source /etc/profile

运行
scala

退出
:quit

scala体验
scala> 3*3+3
res0: Int = 12

scala> :paste
// Entering paste mode (ctrl-D to finish)

object add
 def addInt(a:Int,b:Int):Int=
         var sum:Int=0
         sum=a+b
         return sum
 


// Exiting paste mode, now interpreting.

defined object add

scala> import add.addInt;
import add.addInt

scala> addInt(2,3);
res2: Int = 5

八、Hbase高可用集群部署

1、安装配置

将Hbase压缩包解压至/export/servers目录上,并重命名
cd /export/software
tar -zxvf hbase-1.2.1-bin.tar.gz -C /export/servers/
mv /export/servers/hbase-1.2.1 /export/servers/hbase

配置环境变量
vi /etc/profile
export HBASE_HOME=/export/servers/hbase
export PATH=$PATH:$HBASE_HOME/bin

刷新环境变量,使配置生效
source /etc/profile

2、文件配置

修改Hbase配置文件
cd /export/servers/hbase/conf/

(1)修改hbase-site.xml文件

vi hbase-site.xml

<configuration>
 <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>hbase.tmp.dir</name>
    <value>/export/data/hbasedata</value>
  </property>
  <property>
    <name>hbase.master.maxclockskew</name>
    <value>180000</value>
  </property>
<!-- 指定hbase在HDFS上存储的路径 -->
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://ns1/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/export/data/zookeeper/zkdata</value>
  </property>
<!-- 指定zookeeper地址,多个用","分隔 -->
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181</value>
  </property>
  <property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value>
  </property>
<!-- 指定hbase访问端口 -->
  <property>
    <name>hbase.master.info.port</name>
    <value>16010</value>
  </property>
</configuration>

创建hbase的日志存储目录
mkdir -p /export/data/hbasedata

(2)修改hbase-env.sh文件

vi hbase-env.sh
#配置jdk环境变量
export JAVA_HOME=/export/servers/jdk
#配置hbase使用外部环境变量
export HBASE_MANAGES_ZK=false

(3) 修改regionservers文件

hadoop02.bgd01
hadoop03.bgd01

(4)配置备用HMaster

vi backup-masters

hadoop02.bgd01
hadoop03.bgd01

(5)复制hadoop配置文件

将Hadoop的配置文件复制到Hbase的conf/目录下
cd /export/servers/hadoop-2.10.1/etc/hadoop/
cp -r core-site.xml hdfs-site.xml /export/servers/hbase/conf/

(6) 修改hbase-env.sh文件

在hadoop-env.sh里添加以下内容,方便后续hadoop加载hbase的jar包

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/export/servers/hbase/lib/*

执行hadoop classpath,可以看到以及导入了hbase的jar包
/export/servers/hadoop-2.7.4/etc/hadoop:/export/servers/hadoop-2.7.4/share/hadoop/common/lib/*:/export/servers/hadoop-2.7.4/share/hadoop/common/*:/export/servers/hadoop-2.7.4/share/hadoop/hdfs:/export/servers/hadoop-2.7.4/share/hadoop/hdfs/lib/*:/export/servers/hadoop-2.7.4/share/hadoop/hdfs/*:/export/servers/hadoop-2.7.4/share/hadoop/yarn/lib/*:/export/servers/hadoop-2.7.4/share/hadoop/yarn/*:/export/servers/hadoop-2.7.4/share/hadoop/mapreduce/lib/*:/export/servers/hadoop-2.7.4/share/hadoop/mapreduce/*:/export/servers/hadoop-2.7.4/contrib/capacity-scheduler/*.jar:/export/servers/hbase/lib/*

3、分发文件

scp -r /export/servers/hbase hadoop02.bgd01:/export/servers/
scp -r /export/servers/hbase hadoop03.bgd01:/export/servers/

scp -r /export/data/hbasedata hadoop02.bgd01:/export/data/
scp -r /export/data/hbasedata hadoop03.bgd01:/export/data/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

在hadoop02、hadoop03上刷新环境变量
source /etc/profile

4、启动集群

启动zookeeper集群
sh shart-zkServer.sh

启动hadoop集群
start-all.sh

启动hbase集群
start-hbase.sh

查看进程
hadoop01
10370 HMaster
9603 DFSZKFailoverController
10502 HRegionServer
9272 DataNode
10874 Jps
9884 NodeManager
9165 NameNode
9773 ResourceManager
5807 QuorumPeerMain
9471 JournalNode

hadoop02
6098 HMaster
5716 JournalNode
3957 QuorumPeerMain
5621 DataNode
5783 DFSZKFailoverController
5928 NodeManager
6235 Jps
5548 NameNode

hadoop03
3472 QuorumPeerMain
4421 Jps
[root@hadoop03 ~]# jps
3472 QuorumPeerMain
4688 NodeManager
4976 Jps
4849 HMaster
4587 JournalNode
4492 DataNode

登录Hbase的Web界面
http://hadoop01.bgd01:16010

5、Phoenix安装

解压
tar -zxvf apache-phoenix-4.14.1-HBase-1.2-bin.tar.gz -C /export/servers/

重命名
mv /export/servers/apache-phoenix-4.14.1-HBase-1.2-bin /export/servers/phoenix

配置环境变量
vi /etc/profile
export PHOENIX_HOME=/export/servers/phoenix
export PATH=$PATH:$PHOENIX_HOME/bin

刷新
source /etc/profile

分发至其他节点
scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

source /etc/profile


将phoenix下的所有jar包复制到hbase的lib目录下
cp /export/servers/phoenix/phoenix-*.jar /export/servers/hbase/lib/

分发jar包至hbase的每个节点
cd /export/servers/hbase/lib/

scp phoenix-*.jar hadoop02.bgd01:$PWD
scp phoenix-*.jar hadoop03.bgd01:$PWD

修改配置文件
vi /export/servers/hbase/conf/hbase-site.xml 

# 添加以下内容
<!-- 支持HBase命名空间映射 -->
<property>
        <name>phoenix.schema.isNamespaceMappingEnabled</name>
        <value>true</value>
</property>

<!-- 支持索引预写日期编程 -->
<property>
        <name>hbase.regionserver.wal.code</name>
        <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCode</value>
</property>

启动
cd /export/servers/phoenix/bin/
./sqlline.py hadoop01.bgd01:2181
这里需要注意,hadoop01.bgd01:2181是主机名或IP地址加上zookeeper的端口号

退出!quit

将配置分发到其他节点
scp -r /export/servers/hbase/conf/hbase-site.xml hadoop02.bgd01:/export/servers/hbase/conf/

scp -r /export/servers/hbase/conf/hbase-site.xml hadoop03.bgd01:/export/servers/hbase/conf/

将配置后的hbase-site.xml拷贝到phoenix的bin目录下

九、Kafa集群部署

1、安装配置

解压 
tar -zxvf kafka_2.11-2.0.0.tgz -C /export/servers/

重命名
mv /export/servers/kafka_2.11-2.0.0 /export/servers/kafka

配置环境变量
vi /etc/profile
export KAFKA_HOME=/export/servers/kafka
export PATH=$PATH:$KAFKA_HOME/bin

刷新环境变量,使配置生效
source /etc/profile

2、修改配置文件

cd /export/servers/kafka/config/

(1)修改server.properties配置文件

vi server.properties

#broker的全局唯一编号,不能重复 
broker.id=0
#用来监听链接的端口,producer或consumer将在此端口建立连接 
port=9092
#处理网络请求的线程数量
num.network.threads=3 
#用来处理磁盘I/O的现成数量 
num.io.threads=8
#发送套接字的缓冲区大小
socket.send.buffer.bytes-102400#接受套接字的缓冲区大小
socket.receive.buffer.bytes=102400
#请求套接字的缓冲区大小
socket.request.max.bytes104857600
#kafka运行日志存放的路径
log.dirs=/export/data/kafka/ 
#topic在当前broker上的分片个数 
num.partitions=2
#用来恢复和清理data下数据的线程数量 
num.recovery.threads.per.data.dir=1
#segment文件保留的最长时间,超时将被删除 
log.retention.hours=1
#滚动生成新的segment文件的最大时间 
log.roll.hours=1
#日志文件中每个sement的大小,默认为1GB 
log.segment.bytes=1073741824
#周期性检查文件大小的时间
log.retention.check.interval.ms

Hadoop简介与伪分布式搭建—DAY01

一、  Hadoop的一些相关概念及思想

1、hadoop的核心组成:  

(1)hdfs分布式文件系统   

(2)mapreduce 分布式批处理运算框架

(3)yarn 分布式资源调度系统 

2、hadoop的由来:最早是从nutch+lucene项目中诞生的,用于存储和处理海量的网页

3、hadoop的生态系统:

(1)Hbase--分布式数据库系统

(2)hive--支持sql语法的分析工具(数据仓库)

(3)sqoop--传统关系型数据库到hadoop平台之间的属于导入导出工具

(4)mahout--机器学习算法库(基于mapreduce实现的众多的机器学习算法)(5)5)flume--分布式的日志采集系统

(6)storm--分布式实时流式运算框架

(7)spark--分布式实时计算框架

(8)HDFS--一个分布式文件系统

··a、文件是被切分后存放在多台节点上,而且每一个块有多个副本

··b、文件系统中有两类节点(namenode--元数据管理,datanode--存储数据块)

3、lucene+solr :参考百度这种所搜引擎的技术结构

二、Hadoop伪分布式搭建

1.准备Linux环境
1.0 设置网络
(1)设置windows
(2)设置vmware
(3)设置Linux(centos) 详见1.2

 


参考图:网络设置图

1.1修改Linux的IP
两种方式:
第一种:通过Linux图形界面进行修改(强烈推荐)
进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击edit按钮
-> 选择IPv4 -> method选择为manual -> 点击add按钮 -> 添加IP:192.168.2.200 子网掩码:255.255.255.0 网关:192.168.2.1 ->
->DNS server:8.8.8.8->apply

第二种:修改配置文件方式(屌丝程序猿专用)
sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE="eth0"
BOOTPROTO="static" ###
HWADDR="00:0C:29:3C:BF:E7"
IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"
IPADDR="192.168.2.200" ###
NETMASK="255.255.255.0" ###
GATEWAY="192.168.2.1" ###

注意:修改后不会自动生效,需要重启Linux服务器(reboot)或者重启network服务(service network restart)

1.2修改主机名和IP的映射关系
(1)修改主机名:sudo vi /etc/sysconfig/network
HOSTNAME=weekend110
sudo hostname weekend110 #立即生效
eixt #退出当前用户,重新登入后,即可看见更改的用户名 如:[hadoop@weekend110 ~]$
(2)建立ip映射关系
sudo vim /etc/hosts
192.168.2.200 weekend110 # 打开文件后,添加该条记录

1.3关闭防火墙 (系统服务,用sudo命令)
#查看防火墙状态
sudo service iptables status
#关闭防火墙
sudo service iptables stop
#查看防火墙开机启动状态
sudo chkconfig iptables --list
#关闭防火墙开机启动
sudo chkconfig iptables off

1.4重启Linux
reboot

1.5 补充:怎么在Linux环境下不启动图形界面
(1)让普通用户具备sudo执行权限
su root #切换到root用户
vim /etc/sudoers #编辑sudoers文件将当期用户(hadoop)加入到sudoers file
然后在root ALL=(ALL) ALL 下面添加:hadoop ALL=(ALL) ALL, 如下所示:
## Allow root to run any commands anywhere
root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL

(2)sudo vi /etc/inittab
将启动级别改为3, 即 id:3:initdefault:

注释:在图形界面下,用 命令 init 3 更改为命令行界面

2.安装JDK
2.1从windows系统上传文件
输入命令alt+p 后出现sftp窗口,然后put d:\\xxx\\yy\\ll\\jdk-7u_65-i585.tar.gz

2.2解压jdk
#创建文件夹
mkdir /home/hadoop/app
#解压
tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app

2.3将java添加到环境变量中
sudo vi /etc/profile #对所有用户都会生效
#在文件最后添加
export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585
export PATH=$PATH:$JAVA_HOME/bin #当前路径加上后面的路径,: 表示相加

#刷新配置
source /etc/profile

3.安装hadoop2.4.1
先上传hadoop的安装包到服务器上去/home/hadoop/ , 即输入命令alt+p 后出现sftp窗口,然后put d:\\xxx\\yy\\ll\\jdk-7u_65-i585.tar.gz
注意:hadoop2.x的配置文件 /home/hadoop/app/hadoop-2.4.1/etc/hadoop
伪分布式需要修改5个配置文件
3.1配置hadoop
第一个:hadoop-env.sh #环境变量
vim hadoop-env.sh
#第27行
export JAVA_HOME=/usr/java/jdk1.7.0_65

第二个:core-site.xml #公共的配置文件,根据这个就知道namenode在哪台主机

<!-- 指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://weekend110:9000/</value> #hdfs://weekend110:9000/ 表示namenode的地址
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/hadoop-2.4.1/data/</value>
</property>

第三个:hdfs-site.xml hdfs-default.xml
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value> #默认配置3个副本,但是搭建伪分布式,一台机器,所以这里给1
</property>

第四个:mapred-site.xml (改名字:mv mapred-site.xml.template mapred-site.xml)
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

第五个:yarn-site.xml
<!-- 指定YARN的老大(ResourceManager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>weekend110</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

第六个:slaves
<!-- 指定哪些机器启动namenode,根据此文件找namenode-->
weekend110
...

3.2将hadoop添加到环境变量
sudo vim /etc/profile
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65
export HADOOP_HOME=/home/hadoop/app/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile   #刷新

3.3格式化namenode(是对namenode进行初始化)
hadoop namenode -format

3.4启动hadoop
进入到:cd app/hadoop-2.4.1/sbin/

先启动HDFS
start-dfs.sh
stop-dfs.sh

再启动YARN
start-yarn.sh
stop-yarn.sh

3.5验证是否启动成功
使用jps命令验证 (查看所有的进程)
27408 NameNode
28218 Jps
27643 SecondaryNameNode
28066 NodeManager
27803 ResourceManager
27512 DataNode


3.6 网页查看&测试hdfs&测试mapreduce
(1)网页查看:
进入windows, C:\\Windows\\System32\\drivers\\etc,修改hosts , 添加一条记录: 192.128.2.200 weekend110
访问:http://192.168.2.200:50070 ,或者 http://weekend110:50070(HDFS管理界面)
访问http://192.168.2.200:8088 (MR管理界面)
(2)测试hdfs
从Linux向hdfs传文件: hadoop fs -put jdk-7u65-linux-i586.tar.gz hdfs://weekend110:9000/
从hdfs下载文件到linux: hadoop fs -get hdfs://weekend110:9000/jdk-7u65-linux-i586.tar.gz
(3)测试mapreduce
在/home/hadoop/app/hadoop-2.4.1/share/hadoop/mapreduce 下,有hadoop-mapreduce-examples-2.4.1.jar,里面有mapreduce例子程序
例子1:运行hadoop jar hadoop-mapreduce-examples-2.4.1.jar pi 5 5
例子2:
新建一个文本:[hadoop@weekend110 mapreduce]$ vi test.txt
hello world
hello kitty
hello kitty
hello kugou
hello baby
在hdfs新建目录wordcount: hadoop fs -mkdir hdfs://weekend110:9000/wordcount(或者hadoop fs -mkdir /wordcount)
建立子目录wordcount/input : hadoop fs -mkdir hdfs://weekend110:9000/wordcount/input (或者hadoop fs -mkdir /wordcount/input)
将test.txt上传至hdfs: hadoop fs -put test.txt /wordcount/input
上传结果在HDFS管理界面可以查看
运行wordcount例子: hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /wordcount/input /wordcount/output
查看生成的结果:hadoop fs -ls /wordcount/output
Found 2 items
-rw-r--r-- 1 hadoop supergroup 0 2017-10-04 06:14 /wordcount/output/_SUCCESS
-rw-r--r-- 1 hadoop supergroup 39 2017-10-04 06:14 /wordcount/output/part-r-00000
继续查看part-r-00000文件内容:hadoop fs -cat /wordcount/output/part-r-00000
baby 1
hello 5
kitty 2
kugou 1
world 1

4.配置ssh免登陆
(1)从weekend110登入spark01出错
[hadoop@weekend110 ~]$ ssh spark01
ssh: Could not resolve hostname spark01: Temporary failure in name resolution
(2)解决办法:添加hosts
执行命令:sudo vi /etc/hosts 添加192.168.2.131 spark01
结果:再次执行命令:ssh spark01 ,成功登入(或者直接用命令: ssh 192.168.2.131)
(3)从weekend110到spark01无密登入配置
生成密钥对,并且指定加密算法指令:ssh-keygen -t rsa(按4个回车)
执行完这个命令后,在/home/hadoop/.shh下会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
将公钥拷贝到要免登陆的机器上: scp id_rsa.pub spark01:/home/hadoop/ (注释:scp 通过ssh协议远程拷贝到spark01上)
创建空文件夹: touch authorized_keys
修改文件夹权限:chmod 600 authorized_keys # -rw-------. 1 hadoop hadoop 0 Oct 4 23:34 authorized_keys
将公钥追加到文件authorized_keys里: cat ../id_rsa.pub >> ./authorized_keys
(4)从weekend110到weekend10无密登入配置
创建空文件夹: touch authorized_keys
修改文件夹权限:chmod 600 authorized_keys # -rw-------. 1 hadoop hadoop 0 Oct 4 23:34 authorized_keys
将/home/hadoop/.shh下的id_rsa.pub(公钥)追加到 authorized_keys:cat ./id_rsa.pub >> ./authorized_keys
查看文件内容: cat authorized_keys
检查是否能够无密登入:
[hadoop@weekend110 .ssh]$ ssh weekend110
Last login: Thu Oct 5 00:16:43 2017 from weekend110 #成功无密登入
(5)启动dfs、yarn
启动dfs: start-dfs.sh
验证:jps
启动yarn: satrt-yarn.sh
验证:jps


注释:ssh无密登陆机制.png

 


补充:停掉ssh服务:service sshd stop

5、补充:hdfs的实现机制

图hdsf的实现机制.png

以上是关于基于Hadoop生态的相关框架与组件的搭建的主要内容,如果未能解决你的问题,请参考以下文章

基于Hadoop生态圈的数据仓库实践 —— 环境搭建

基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建

Hadoop生态圈技术光速入门(最短路径算法MR实现社交好友推荐算法)

hadoop生态的大体介绍

hadoop生态圈各个组件简介

Hadoop简介与伪分布式搭建—DAY01