由于阿里云磁盘空间导致hadoop的yarn节点处于UNHEALTHY状态

Posted 2020-11-16 AI数据

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了由于阿里云磁盘空间导致hadoop的yarn节点处于UNHEALTHY状态相关的知识，希望对你有一定的参考价值。

最初使用的阿里云云盘只有50G

正常运行的hadoop集群突然无法正常运行了，web页面显示节点为UNHEALTHY

使用df -m命令，发现一些节点磁盘空间占用达到了99%，因此要扩容磁盘空间

1.为云盘建立快照，以防出错

2.磁盘扩容

3.选择扩容容量，选在线扩容，付费

4.如果是centos7

此处以CentOS 7操作系统为例演示分区扩展的步骤。

运行fdisk -l命令查看现有云盘大小。

以下示例返回云盘（/dev/vda）容量是100GiB。

[root@ecshost ~]# fdisk -l
Disk /dev/vda: 107.4 GB, 107374182400 bytes, 209715200 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk label type: dos
Disk identifier: 0x0008d73a

   Device Boot      Start         End      Blocks   Id  System
/dev/vda1   *        2048    41943039    20970496   83  Linux

运行df -h命令查看云盘分区大小。

以下示例返回分区（/dev/vda1）容量是20GiB。

[root@ecshost ~]# df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        20G  1.5G   18G   8% /
devtmpfs        7.8G     0  7.8G   0% /dev
tmpfs           7.8G     0  7.8G   0% /dev/shm
tmpfs           7.8G  344K  7.8G   1% /run
tmpfs           7.8G     0  7.8G   0% /sys/fs/cgroup
tmpfs           1.6G     0  1.6G   0% /run/user/0

运行growpart <DeviceName> <PartionNumber>命令调用growpart为需要扩容的云盘和对应的第几个分区扩容。

示例命令表示为系统盘的第一个分区扩容。

[root@ecshost ~]# growpart /dev/vda 1
CHANGED: partition=1 start=2048 old: size=41940992 end=41943040 new: size=209710462,end=209712510

若运行命令后报以下错误，您可以运行LANG=en_US.UTF-8切换ECS实例的字符编码类型。

[root@ecshost ~]# growpart /dev/vda 1
unexpected output in sfdisk --version [sfdisk，来自 util-linux 2.23.2]
[root@ecshost ~]# LANG=en_US.UTF-8

运行resize2fs <PartitionName>命令调用resize2fs扩容文件系统。
示例命令表示为扩容系统盘的/dev/vda1分区文件系统。
```
[root@ecshost ~]# resize2fs /dev/vda1
resize2fs 1.42.9 (28-Dec-2013)
Filesystem at /dev/vda1 is mounted on /; on-line resizing required
old_desc_blocks = 2, new_desc_blocks = 7
The filesystem on /dev/vda1 is now 26213807 blocks long.
```
说明如果您使用的是xfs文件系统，运行xfs_growfs /dev/vda1命令扩容文件系统。

运行df -h命令查看云盘分区大小。

返回分区（/dev/vda1）容量是100GiB，表示已经成功扩容。

[root@ecshost ~]# df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        99G  1.6G   93G   2% /
devtmpfs        7.8G     0  7.8G   0% /dev
tmpfs           7.8G     0  7.8G   0% /dev/shm
tmpfs           7.8G  500K  7.8G   1% /run
tmpfs           7.8G     0  7.8G   0% /sys/fs/cgroup
tmpfs           1.6G     0  1.6G   0% /run/user/0

5.如果是centos6或更低

此处以CentOS 6操作系统为例演示分区扩展的步骤。

安装dracut-modules-growroot工具。
```
[root@ecshost ~]# yum install -y dracut-modules-growroot
```
如果您使用的是其他软件包管理器，请将yum修改为对应的命令。
覆盖已有的initramfs文件。
```
[root@ecshost ~]# dracut -f
```

运行fdisk -l命令查看现有云盘大小。

以下示例返回云盘（/dev/vda1）容量是100GiB。

[root@ecshost ~]# fdisk -l
Disk /dev/vda: 107.4 GB, 107374182400 bytes
255 heads, 63 sectors/track, 13054 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x0003a7b4

   Device Boot      Start         End      Blocks   Id  System
/dev/vda1   *           1        2611    20970496   83  Linux

运行df -h命令查看云盘分区大小。

以下示例返回分区（/dev/vda1）容量是20GiB。

[root@ecshost ~]# df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        20G  1.1G   18G   6% /
tmpfs           7.8G     0  7.8G   0% /dev/shm

运行growpart <DeviceName><PartionNumber>命令调用growpart为需要扩容的云盘和对应的第几个分区扩容。
示例命令表示为系统盘的第一个分区扩容。
```
[root@ecshost ~]# growpart /dev/vda 1
CHANGED: partition=1 start=2048 old: size=41940992 end=41943040 new: size=209710462,end=209712510
```
在控制台重启实例或者调用API RebootInstance。详细步骤请参见重启实例和RebootInstance。
再次远程连接实例。

运行resize2fs <PartitionName>命令调用resize2fs扩容文件系统。

示例命令表示为扩容系统盘的/dev/vda1分区文件系统。

[root@ecshost ~]# resize2fs /dev/vda1
resize2fs 1.41.12 (17-May-2010)
Filesystem at /dev/vda1 is mounted on /; on-line resizing required
old desc_blocks = 2, new_desc_blocks = 7
Performing an on-line resize of /dev/vda1 to 26213807 (4k) blocks.
The filesystem on /dev/vda1 is now 26213807 blocks long.

说明如果您使用的是xfs文件系统，运行xfs_growfs /dev/vda1命令扩容文件系统。

运行df -h命令查看云盘分区大小。

返回分区（/dev/vda1）容量是100GiB，表示已经成功扩容。

[root@ecshost ~]# df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        99G  1.1G   93G   2% /
tmpfs           7.8G     0  7.8G   0% /dev/shm

以上是关于由于阿里云磁盘空间导致hadoop的yarn节点处于UNHEALTHY状态的主要内容，如果未能解决你的问题，请参考以下文章