网络24小时值守F&Q

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络24小时值守F&Q相关的知识,希望对你有一定的参考价值。

  1. zabbix告警

    1. 当提示机房间链路丢包,延迟增大、down机等问题登陆相应设备进行双向MTR。

    2. 把得到的双向MTR截图直接发给两边的机房故障群(组),@相关技术可以提高回应速度。

    3. MTR上会显示丢包、延迟增大、不通的节点ip,查询该ip的归属,如果双向MTR内事故ip都属于同一地市,那么要着重跟进该机房。

    4. 当查询出故障归属地市后,群内无反应,及时拨打该机房24小时值班人员电话。并告知其情况,表明在该ip节点有故障。

  2. 故障点不在骨干链路上

    1. 当服务器mtr对端时从第一跳开始就丢包(第一跳为交换机),那么服务器ping交换机ip查看是否确实丢包。服务器默认网关的ip为交换机ip地址。

    2. 如果ping交换机都丢包,要及时打电话给网络组成员,可能是光纤模块引起的故障。

    3. 如果MTR第二条丢包严重,初步判断为机房设备问题(包括代理商),可直接向机房人员说明。

  3. 保证业务不受影响

    1. 当联系机房后,被告知故障无法及时恢复,应及时切走业务流量。

    2. 遇到无法及时处理的情况,联系网络组。

    3. 当故障较多时无法一人处理,联系网络组处理网络故障。

  4. 故障恢复

    1. 如果故障具有持续性、间接性、物理因素引发的故障,不要恢复使用。

    2. 如果故障已经确保恢复,MTR、ping、wget均为正常数值可切回流量恢复使用。必要时可通过调整轮询比例方式调整切量大小。

  5. 记录

    1. 根据zabbix告警记录故障发生时间,根据测试故障结果的时间为故障恢复时间。

    2. 如果多机房到同一个机房产生故障,大多数为后者故障引起的,所以只记录该机房故障即可。

    3. 记录时写明值班人员名字,发送邮箱。


以上是关于网络24小时值守F&Q的主要内容,如果未能解决你的问题,请参考以下文章

有那种软件可以监测一天24小时电脑网络连结情况?把网络连接情况记录下来,比如几时几分几秒网络断开,

行业快讯 | RubyMiner挖矿程序24小时内影响全球30%的网络

网络流24题之深海机器人问题

自动化无人值守网络装机(PXE网络装机)

PXE高效批量网络装机实现Kickstart无人值守安装

PXE网络装机及kickstart无人值守自动装机技术