如何排查Linux服务器崩溃的问题?

Posted ManageEngine IT运维管理

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何排查Linux服务器崩溃的问题?相关的知识,希望对你有一定的参考价值。

众所周知,Linux服务器著称在企业环境中偶尔系统崩溃可能看起来影响不是很大,但是准确地诊断系统故障的原因仍然是必须的,因为系统故障可以明显影响软件或硬件性能。尽管故障诊断非常艰巨,通过使用本指南中提到的工具,可以确保你能够应对各种艰难的挑战。

因为每个服务器都是不同的,本指南并 在帮助你找出事故的确切原因。重点是你可以使用工具来获得重要信息来诊断问题。

Linux进程管理

服务器崩溃后第一步应该检查您的系统上运行的所有进程,以确保一切都是有效地运行。Linux内置的 Top命令允许您查看CPU使用率,内存使用,交换内存、缓存大小、缓冲区大小,进程PID、用户、命令等等。这些简单的命令可以对故障进行初始诊断分类以便立即您查看系统信息。

使用此命令简化终端top输出

Htop——一个功能更强大的解决方案。这可 以使 服务器管理工作更容易,安装这个工具 , 极大 增强了故障排除能力 ,且 提供更直观的信息。Htop的关键特性包括一个颜色编码接口; 快捷键; 水平和垂直滚动等等。
然而Htop不是默认安装在Linux系统 可以 使用下面的命令 添加到基于CentOS和RedHat的系统
~ yum install htop
在Ubuntu系统上,Htop可以用以下命令安装:
~ sudo apt-get install htop

分析网络流量

有时候 服务器崩溃将引发网络流量问题。有效 包分析是至关重要的决定是否在数据中心,客户端系统,甚至直接在服务器上 引发崩溃问题

Tcpdump 

Tcpdump是可用于Linux系统的最广泛使用的命令行网络数据包分析工具之一。对于服务器管理员来说,这是一个至关重要的工具,因为它允许他们捕获或过滤在特定接口上通过网络接收或传输的TCP/IP数据包。 该程序还允许您将数据保存到文件中以进行进一步分析。尽管在本指南中完全介绍Tcpdump的使用是不切实际的,但Tecmint.com还是提供了一个快速入门指南,供服务器管理专业人员在方便时使用。

Netstat

当您查询简单的网络统计信息时,Netstat是执行此任务的理想工具。此命令可用于监控 传入和传出的网络数据包,以及查看每个网络设备的接口统计信息。与Tcpdump一样,在此处列出命令的数量也不切实际,但是Tecmint.com提供了有用的技术 指南。

WireShark 

Wireshark是几乎所有服务器管理员都必须使用的重要工具,因为它是服务器管理员可以使用的最强大且广泛支持的数据包监视工具之一。关键功能包括:〜VoIP分析,支持数百种通信协议,能够保存许多不同的捕获格式等等。 对于任何类型的数据包分析,在大多数情况下,Wireshark可能 都是服务器管理员唯一需要的工具。

检查日志

当所有其他方法均失败时,浏览服务器日志是解决所有错误的最佳方法之一。通常,文件位于 /var/log/syslog /var/log/ 目录中。但是 查看原始日志通常是无用的,因为它们通常包含数千个条目,并且如果没有日志分析工具就不可能完全理解数据。

简化日志分析的方法

如果您要分析常规服务器流量日志,那么优秀的分析工具对于任务便于 管理至关重要。对于Web服务器流量分析,AWstats是许多服务器管理员的首选工具,因为它是一个免费的应用,可以将数据图形化。尽管AWstats并不像前面提到的工具那样专注于底层信息,但是它提供了一些关键指标。借助AWstats,诸如HTTP错误,负载 服务器的 集群报表,每小时流量日志以及高峰时间报表以及访问者IP地址等数据都是确定服务器崩溃可能触发因素的关键指标。

对于需要全面解决方案的用户,Site24x7提供了所有您会用到的工具,适用于需要快速解决服务器问题的企业客户。除了监控60多个服务性能指标,Site24x7还提供对日志管理工具的访问,该工具使对日志数据的筛选更加容易使您可以更加主动地来提高安全性。

以上是关于如何排查Linux服务器崩溃的问题?的主要内容,如果未能解决你的问题,请参考以下文章

Linux系统及应用问题分析排查工具

Linux线上服务器问题排查

Linux 服务崩溃

应急响应之Linux 入侵排查

应急响应之Linux 入侵排查

Linux---记录一次线上服务 CPU 100%的排查过程