分析和排查系统故障笔记

Posted 醉人与轩

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分析和排查系统故障笔记相关的知识,希望对你有一定的参考价值。

一、日志文件管理
1、Linux系统日志类型
    1)内核系统日志
        通过rsyslog程序统一管理日志
    2)用户日志
        记录登录和注销产生的信息
    3)程序日志
        记录程序运行状态
        rpm程序日志在/var/log目录
        源代码程序日志在安装目录保存
2、常见的日志文件
/var/log/message  内核及共工消息日志
/var/log/cron     记录crond计划任务产生的事件信息
/var/log/dmesg    记录Linux操作系统在引导过程中的各种信息
/var/log/maillog 记录进入或发出系统的电子邮件活动
/var/lob/lastlog 记录每个用户的登录事件
/var/log/secure   记录用户认证相关的安全事件信息
/var/log/wtmp   记录每个用户登录,注销及系统启动和停机事件
/var/log/btmp   记录失败的,错误的登录尝试及验证事件
/var/log/utmp  当前登录的用户事件
3、日志的安全级别
    1)0
        紧急
        系统无法正常使用
    2)1
        警告
        需要管理员干预
    3)2
        严重
        问题比较严重管理员修复
    4)3
        错误
        程序或者系统无法正常使用
    5)4
        提醒 
        根据提醒排查故障
    6)5
        注意
        可以忽略
        不影响系统使用
    7)6
        程序或者服务运行的信息
    8)7
        调试 
        调试系统或者服务产生信息
4、用户日志分析 
    1)查询登录系统的用户
        [root@centos01 ~]# users 
    2)查询登录系统来源信息
        [root@centos01 ~]# who
    3)查询用户登录源和显示硬件资源使用情况
        [root@centos01 ~]# w
    4)查询用户登录情况
        [root@centos01 ~]# last
    5)查询用户登录失败信息
        [root@centos01 ~]# lastb 
    6)实时查看apache的错误日志
        [root@centos01 ~]# tail -f /var/log/httpd/error_log 
    grep  -v  "^$" /etc/rsyslong.conf   查看系统默认的系统日志设置  过滤掉空行    
5、日志管理策略
    1)定期备份
        防止日志丢失
    2)定期日志切割
        防止日志过大阅读困难
    3)控制日志访问权限
        防止权限过大
        产生误操作
    4)集中管理日志
        配置日志服务采集服务器日志
        方便统计和日志备份
    5)观察日志
        防止日志被篡改或者出现断点
二、Linux操作系统故障修复
1、Linux系统常见的故障类型
    1)物理损坏
        计算机硬盘产生坏道
        导致数据丢失
    2)误操作
        权限过大数据误删除无法恢复
    3)不可抗力自然灾害
        地震
        海啸
    4)计算机引导程序故障
        系统无法正常启动
    5)计算机病毒木马
        感染计算机病毒或者木马导致数据损坏或者被剽窃
2、备份grub引导菜单
    1)备份引导菜单
        [root@centos01 ~]# cp /boot/grub2/grub.cfg /boot/grub2/grub.cfg.bak
    2)恢复grub引导菜单
        [root@centos01 ~]# cp /boot/grub2/grub.cfg.bak /boot/grub2/grub.cfg
3、修复mbr引导记录
    1)备份mbr引导记录到sdb1目录中
        [root@centos01 ~]# dd if=/dev/sda of=/sdb1/mbr.bak bs=512 count=1
    2)模拟mbr损坏
        [root@centos01 ~]# dd if=/dev/zero of=/dev/sda bs=512 count=1
    3)进入急救模式
        mkdir /sdb1 
        mount /dev/sdb1 /sdb1 
        dd if=/sdb1/mbr.bak of=/dev/sda bs=512 count=1
4、第一种方法修改密码
    1)进入急救模式 
        init=/bin/sh
    2)设置系统为可读写模式
        mount -o remount,rw /
    3)修改密码
        passwd root 
    4)重新启动系统
        exec /sbin/init 6
5、第二种=方法修改密码
    1)修改根目录 
        mount -o remount,rw /sysroot
    2)更改目录
        chroot /sysroot
    3)修改密码 
        echo "123"| passwd --stdin root 
    4)重新启动 
        exec /sbin/init 6
6、磁盘i节点耗尽
    1)i节点耗尽的原因
        计算机存储小文件过多
        i节点被小文件占满
        导致磁盘剩余空间充足用户无法存储数据
    2)避免i节点耗尽
        定期归档小文件
        定期清理小文件
        设置磁盘配额避免i节点耗尽
    3)查看计算机分区i节点数量
        [root@centos01 ~]# df -i
    4)模拟i节点耗尽
        [root@centos01 ~]# touch /sdb1/1..2549.txt
    
MBR扇区恢复
1.备份MBR山区数据
mkdir /backup
mkfs.xfs /dev/sdb1
mount /dev/sdb1 /backup
dd if=/dev/sda of=/backup/123 bs=512 count=1
2.模拟扇区故障
dd if=/dev/zero of=/dev/sda bs=512 count=1
repoot
进入安装界面
选择进入救援模式(第三个)
选择第二项
选择第二项
回车回车
fdisk -l         MBR已损坏,无法获取有效分区表
mkdir /tmpdir
mount /dev/sdb1 /tmpdir
dd if=/tmpdir/123 of=/dev/sda bs=512 count=1
exit


GRUP故障恢复
模拟故障
rm -rf /boot/*
选择  1
sh-4.2#  chroot /mnt/sysimage    切根
bash-4.2# ls  /boot/     啥也没有
bash-4.2# mount /dev/sr0  /mnt
bash-4.2# rpm -ivh /mnt/Packages/kernel-3.10-693.el7.x86_64.rpm  --force
bash-4.2# grub2-install   /dev/sda
bash-4.2# cd /boot/grub2/
bash-4.2# grub2-mkconfig    -o    grub.cfg       (在当前文件下,所以没有打绝对路径)
bash-4.2# exit
bash-4.2# reboot


遗忘root 密码
修改boot
进入安装界面
选择进入救援模式(第三个)
选择第二项
选择1
回车
chroot  /mnt/sysimage
passwd root
密码
密码
exit
init 0    
        
    
        
    
    

以上是关于分析和排查系统故障笔记的主要内容,如果未能解决你的问题,请参考以下文章

Linux进程和任务管理和分析和排查系统故障

linux 分析和排查系统故障

Linux系统故障分析与排查--日志分析

linux系统故障分析与排查

Linux的系统故障分析与排查

51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程(高俊峰)