运维常见问题及排查思路

Posted luoxiaolei

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了运维常见问题及排查思路相关的知识,希望对你有一定的参考价值。

防患未然

备份

  1. 做任何修改之前一定要备份,方便出问题进行回滚。
  2. 数据库备份,安装程序备份,条件允许最好异地备份。

权限

  1. 需要登录服务器的人,分配可以完成工作的最小权限。
  2. 敏感操作要进行逐级确认之后进行操作。

对症下药

重启大法

  1. 重启应用程序
  2. 重启服务器
  3. 重启数据库服务

查看日志

  1. 检索日志
grep keyValue foo.log
  1. 查看实时打印的日志
tail -f foo.log

系统指标

  1. 硬盘容量(比如日志文件耗尽了硬盘容量)
df -h
  1. 内存使用率(程序出现内存泄漏导致内存溢出)
free 
  1. CPU使用率(死循环耗尽CPU资源)
top

推荐使用gotop插件,可以从终端直观的、实施的查看CPU、内存、磁盘等指标。

数据库

  1. 与应用分开部署时,需要确定网络是否连通
ping dataBaseServerIP
  1. Oracle表空间不足,扩大表空间
  2. Oracle监听服务死掉,重启监听服务
  3. Oracle安装目录磁盘空间不足,扩容或删除备份文件

网络

  1. 服务器防火墙未设置永久关闭,应用程序安装之后,发生服务器宕机,重启后防火墙默认开启,导致应用无法访问。
  2. 网管平台对防火墙配置了新的规则而未接到通知,尤其涉及到内外网通信,如果发生诡异问题,要优先考虑下网络原因。
  3. 有些服务之间的调用涉及到了IP与域名的映射,必要时候需要修改hosts文件。

其他

  1. 解压备份的文件时最好指定解压到的文件夹,防止误操作覆盖已有的文件
  2. 备份文件要加上备份的日期,必要时候附加说明,多个版本便于恢复。

以上是关于运维常见问题及排查思路的主要内容,如果未能解决你的问题,请参考以下文章

运维常见问题及排查思路

Linux系统运维故障排查思路

IT运维问题排查思路方案(图文)

Linux运维故障排查思路

论运维之故障排查思路与方法

一个C++工程CPU占用100%问题的排查