jenkins master 与slave 异常断开引起task 任务失败之故障深入分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了jenkins master 与slave 异常断开引起task 任务失败之故障深入分析相关的知识,希望对你有一定的参考价值。



环境信息: 

      网络环境 :   同一个子网中

      jenkins master :     centos 7   jenkins 2.0  master 

      jenkins slave :  windows    slave 


故障现象: 


     任务的报错信息:     



现象分析: 

     1,   master slave 异常断开

     2,  任务执行失败

     3,  tcp 长连接异常断开 

    4,   断开连接失败,  4 层问题  或者是 3层问题



原因猜测:  

     1, master  负载过高  引起异常断开

     2, 网络质量差,引起异常断开

     3,  slave  进程假死 引起 异常断开  



排查方法: 

    1, 网络质量监控  (秒级)

    2,  进程存活监控   

    3,  debug 日志打开   master  slave  

    4,    tcp 长连接抓包分析 

    5,  全链路 数据包 路由质量检测 监控 



短期解决办法:

1, 剔除 问题节点



长期解决方案:    


1,  查看debug 日志 

2,  windows slave  自动重连 master 

3,   task 设置 retry  功能

4,  windows slave  守护脚本的开发  



    


本文出自 “运维自动化” 博客,请务必保留此出处http://shower.blog.51cto.com/4926872/1972645

以上是关于jenkins master 与slave 异常断开引起task 任务失败之故障深入分析的主要内容,如果未能解决你的问题,请参考以下文章

Jenkins Master/Slave节点环境部署配置

Jenkins的安装与配置

需要建议与Jenkins master-Slave设置一起使用吗?

Jenkins - master/slave模式

jenkins的Master/Slave模式

jenkins2 pipeline介绍