今早公司上班,老大跟我说有一个服务老是上线,下线,问我啥情况。我回想了下我的项目部署,觉得不可能会出现这个问题呀。然后各种鼓捣,倒腾了一个早上,终于找出了罪魁祸首。
场景:我们的服务部署在亚马逊上。我们采用aws 的Lambda服务(有兴趣的朋友可以去了解下https://amazonaws-china.com/cn/documentation/lambda/)来进行业务报警,具体流程:业务异常-触发Lambda-调用微信通知服务(这是一个dubbo服务)-报警。
现象:每次有业务报警时,系统后台总会提示说 A服务(这也是dubbo服务)上线了,然后A服务下线了。但是后台提示的A服务的ip地址又不是我们局域的ip,我们是172.xx.xx.xxx,但是提示的ip是10.xx.xx.xxx
原因:刚看到这个问题的时候各种懵逼,各种排查-ip地址是哪里的,是不是A服务在别的地方有误启动呀,代码里面是不是出现问题;各种情况都排查了一遍,就是没有问题。最后,把所有的报警记录看了一遍,发现每次有业务报警的时候都会出现。这下我们才把关注点转向那个Lambda服务,检查代码之后发现配置文件里面的applicationName跟A服务的applicationName一样,导致大家都在查A服务的问题。至于为什么每次报警都有这个问题,这是因为每次有报警时,aws 的Lambda服务就会调用 微信报警服务,zookeeper监测到该节点的注册,报警完了之后Lambda服务又会下线(一次性服务)。aws Lambda服务的网络区域跟我们服务的网络区域不同。
感悟:代码还是要规范点,不然死都不知道怎么死。