记一次生产的bug

Posted kernel_y

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记一次生产的bug相关的知识,希望对你有一定的参考价值。

  第一个在代码中使用 new SimpleDateFormat("EEEE")来判断周几。在本地测试过程中通过日志打印出来的周几 比如周日对应的是中文汉字“星期日”,然后使用判断 if("星期日".equals(weekDay)){   } (其中weekDay是要使用的日期)。在本地测试通过后就愉快的上线了。

  这是一个发邮件的功能,我把生产上发邮件的时间定在了周六上午10点。到了周六,我就正好去了外地玩,也没有带笔记本。周六上午我就在玩的地方等邮件发出,等着见证奇迹的时刻。终于10点到了,为什么没发出来,难道是生产上数据太多,好吧,再等一会儿。10:30了,为什么还没发出来,我意识到是代码出问题了(心中一万匹****)。于是找同事帮忙看日志,但是日志中并没有显示异常,找不出来原因,心中万分焦虑。

  终于在周日晚上返回家里,打开电脑,连上VPN,在代码中打日志,上线测试日志打印情况,最后发现到某个地方之后的日志打印不了了。我看下源代码,这附近我写了一直 if(){}else if() {} else {return;}。那问题很可能就在return这里了,我又把要比较的日期weekDay打印出来,生产上显示的竟然是“Sunday”,一口老血喷出。问题终于找到,原来每次到了else这里它都默默地返回了,怪不得我在日志里什么也看不出来。

  这次经历暴露了我写代码的一个很大毛病,记录下来,前事不忘后事之师。

  1、在写代码的过程中,不要把问题隐藏起来,不要直接return,catch到了错误也不要直接return或者在catch里什么都不做,要么打日志,要么发短信,要么把问题抛给上层处理,根据需要把选择相应的方式。一定不要把代码中的问题隐藏到代码中,显示出来,崩溃都可以。

  2、在代码上线前,无论多么少的代码,一定要按照正规的流程放到测试环境测试,即使本地和测试环境都通过了,在生产上也可能因为机器或者数据量的不同而导致问题,一定要进行充分的测试,那些bug永远在你见识过的之外,不通过充分的测试是暴露不出来的。

以上是关于记一次生产的bug的主要内容,如果未能解决你的问题,请参考以下文章

记一次Gson在不同环境解析时间结果不同的BUG定位

记一次Gson在不同环境解析时间结果不同的BUG定位

记一次生产频繁发生FullGC问题

生产事故-记一次特殊的OOM排查

记一次生产ActiveMQ消息积压

记一次生产kafka消息消费的事故