AIX常规检查与排错
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AIX常规检查与排错相关的知识,希望对你有一定的参考价值。
一、AIX系统管理日常健康检查与监控
1.检查文件系统
命令:df -k(或df -m、df -g)
除了/usr文件系统,其他文件系统不应太满,一般不超过80%
如果发现文件系统空间不够,方法有两种
a.找出占用空间最大的文件
命令:du -sk * | sort -r n | head
查找当前目录下占用剑最大的子目录,逐层往下找,删除无用文件,释放空间
b.增加文件系统大小
命令:smit chfs
注意:卷组中要有剩余空间
2.检查系统完整性
命令:
umount filesystem_name
fsck filesystem_name
fsck -y filesystem_name
注意:文件系统必须先umount,再检查和修复,否则可能出错
3.查看卷组信息
命令:lsvg -l vg_name
如果发现有处于stale状态的卷组,尝试使用以下命令同步修复
命令:syncvg -v vg_name
或smit syncvg
4.检查内存交换区(paging space)使用率
命令:lsps -s (或lsps -a)
注意:使用率不要超过70%,如果超过了,要考虑增加交换区或增加内存
查看内存大小的命令:lsattr -El mem0
5.网络检查
命令:netstat -i
作用:查看网卡状态
关注:lerrs/lpkts和Oerrs/Opkts是否>1%
Oerrs:从这个网卡发出去错误包数目的统计
Opkts:从这个网卡发出去的ip包个数的统计
查看路由表
命令:netstat -rn
核对主机名
命令:hostname
查看IP地址
命令:ifconfig -a
用法
ifconfig en0 inet 11.0.0.1 up
ifconfig en0 ns 110:02.60.8c.2c.a4.98 up
查看网卡情况
命令:lsattr El ent0
添加缺省路由
路由信息格式:net,,0,172.16.23.81
命令:chdev -l inet0 -a route=0,172.16.23.81
其中172.16.23.81是网关
删除缺省路由
命令:chdev -l inet0 -a delroute=net,,0,133.16.23.81
如果缺省路由不正确,则先删除,再添加
6.系统故障记录
errdemon进程随系统启动而启动,记录包括硬件、软件及其他操作信息
文件路径:/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析
修改错误日志存放文件:/usr/lib/errdemon -i /PATH/TO/FILENAME
修改错误日志大小:/usr/lib/errdemon -s logsize
修改内存缓冲区大小:/usr/lib/errdemon -B buffersize
列出简短错误信息
命令:errpt | more
TIMESTAMP:MMDDHHMMYY(月日时分年)
T(类型):P 永久 T 临时 U 未知
C(分类):H 硬件 S 软件 O 用户 U未知
列出所有硬件出错信息:errpt -d H
列出所有软件出错信息:errpt -d S
列出详细出错信息:errpt -aj ERROR_ID(或errpt -A -j ERROR_ID)
二、清除错误日志
1.清除10天以前的所有日志
命令:errclear 10
2.清除所有硬件的错误
命令:errclear -d H 0
3.删除所有资源组为disk的记录
命令:errclear -N disk 0
4.删除所有类型为unknown的记录
命令:errclear -T UNKN 0
5.删除所有记录
命令:errclear 0
三、常用操作
1.查看机器上有几条内存及容量
命令:lscfg -vp | grep Size
命令:lscfg -vp | grep DIMM | wc -l
P570上每个Processor Card上有8个DDR memory DIMM slots,所以可以通过lscfg -vp | grep Processor看有几个Processor Card
命令:lscfg -vp | grep Processor
lscfg -vp | grep -p memory
2.查看每个硬盘(PV)容量的方法
命令:Bootinfo -s hdisk*
3.查看HBA卡的产品数据(VPD)信息
命令:lscfg -vl fcs0
四、故障处理
1.使用errpt查看报错信息
2.查看控制面板上的LES代码
8位代码:通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。(注:S85正常启动过程中有合法的8位代码)
4位代码:通常是Exxx
3位代码:通常为0yyy,只看后3位
8为和4位代码可查看系统服务手册(Service Guide)
3位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)
3.查看磁盘可用状态
命令:lsdev -Cc disk
4.查看物理卷
命令:lspv
5.查看卷组
命令:lsvg vg_name
lsvg -l vg_name
lsvg -p vg_name
5.查看文件组信息
命令:lslpp
例:lslpp -L | grep 23100020
6.查看设备参数设置
命令:lsattr
例:查看网卡参数
lsattr -El ent2
7.查看VPD信息
命令:lscfg
例:lscfg -vl ssa1
以上是关于AIX常规检查与排错的主要内容,如果未能解决你的问题,请参考以下文章