7省BUG分析一

Posted tropica

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了7省BUG分析一相关的知识,希望对你有一定的参考价值。

 

1.1.1    1:2007-8-1出现超时
中心反馈落地方业务超时,业务完成周期超过集团公司的规定时间。
 
原因分析:日志里反复提示连接 DOMAIN 失败,对 TUXEDO 的日志跟踪分析后,湖南的超时分析后发现是因为一级 BOSS 和彩铃公用一个 DOMAIN  引起的,日志里总是返回调不到服务, Unable to obtain remote domain id (WEBTTDOM41) information 等待超时,后来将 DOMAIN 分开后问题解决。观察了一个星期后没有再次出现超时。
 
具体解决方法:
DBB 文件中新建一个独立的 DOMAIN
TUXDOM GWGRP=GRPDOM
        TYPE=TDOMAIN
        DOMAINID="TUXDOM"
        BLOCKTIME=240  
        MAXDATALEN=204800 
        MAXRDOM=89
        CONNECTION_POLICY=ON_DEMAND
        DMTLOGDEV="/gboss/tuxapp/etc/DLOG"
        DMTLOGNAME="DLOG"
       
TUXDOMCL GWGRP=GRPDOMCL
        TYPE=TDOMAIN
        DOMAINID="TUXDOMCL"
        BLOCKTIME=240
        MAXDATALEN=204800
        MAXRDOM=89
        CONNECTION_POLICY=ON_DEMAND
        DMTLOGDEV="/gboss/tuxapp/etc/CLDLOG"
        DMTLOGNAME="DLOG"
 
如上面那样,加一个独立的 DOMAIN ,同时也需要在 UBBMW32 加一个组。
# TUXEDO 系统管理组 GRPNO = 100 开始,间隔为 10
GRPWSL
        LMID=gboss     GRPNO=100        OPENINFO=NONE
GRPJSL
        LMID=gboss     GRPNO=110        OPENINFO=NONE
GRPDOM
                                LMID=gboss     GRPNO=120 OPENINFO=NONE
GRPDOMCL
                                LMID=gboss     GRPNO=130 OPENINFO=NONE
 
目前仍然有部分省还是配置在一起的,比如云南等省,我检查后发现没有新加 DOMAIN ,还是公用同一个 DOMAIN 。建议现场可以把 DOMAIN 分开。
*DM_LOCAL_DOMAINS
TUXDOM GWGRP=GRPDOM
        TYPE=TDOMAIN
        DOMAINID="TUXDOM"
        BLOCKTIME=240  
        MAXDATALEN=204800 
        MAXRDOM=89
        CONNECTION_POLICY=ON_STARTUP
       DMTLOGDEV="/gboss/tuxapp/etc/DLOG"
        DMTLOGNAME="DLOG"
 
 
 
1.2            安徽超时
1.2.1    1:2007-8-13超时
新疆出现超时,检查后发现超时的原因为数据库问题,下面的分析原因
错误原因:调服务失败,错误日志为
[DEBUG] [2007-08-13 17:06:44] -=> [HttpSender] Http 超时时间 :180000
[ERROR] [2007-08-13 17:06:45] -=>
调用 tuxedo 服务返回系统级的错误
TPETIME(13):0:0:TPED_MINVAL(0):QMNONE(0):0
        at weblogic.wtc.jatmi.dsession.tpgetrply(dsession.java:3057)
        at weblogic.wtc.jatmi.dsession.tpcall(dsession.java:3219)
        at weblogic.wtc.gwt.TuxedoConnection.tpcall(TuxedoConnection.java:1361)
        at com.linkage.uip.sender.TuxedoServiceCaller.callTuxedoService(Unknown Source)
        at com.linkage.uip.sender.TuxedoServiceCaller.sendRequestData(Unknown Source)
        at com.linkage.iboss.sender.IBossTuxSvcCaller.sendRequestData(Unknown Source)
        at com.linkage.iboss.sender.IBossCommonSender.sendRequestData(Unknown Source)
        at com.linkage.uip.processor.BusiInvokeCMD.execute(Unknown Source)
        at org.apache.commons.chain.impl.ChainBase.execute(ChainBase.java:166)
        at com.linkage.uip.processor.DefaultChain.execute(Unknown Source)
        at com.linkage.uip.processor.LoadSubSystemUnitCMD.execute(Unknown Source)
        at org.apache.commons.chain.impl.ChainBase.execute(ChainBase.java:166)
        at com.linkage.uip.processor.DefaultChain.execute(Unknown Source)
        at org.apache.commons.chain.impl.ChainBase.execute(ChainBase.java:166)
        at com.linkage.uip.processor.DefaultChain.execute(Unknown Source)
        at com.linkage.uip.processor.CommonDataProc.process(Unknown Source)
        at com.linkage.uip.receiver.HTTPDataReceiver.doPost(Unknown Source)
 
那么这样的错误可以排除 WEBLOGIC 的问题,肯定和 TUXEDO 有关,仔细检查 TUXEDO 日志,在发生错误的时间段,数据库有异常信息:
171104.boss1t2!TMS_ORA.20967.1.0: gtrid x0 x469b9f5c x44aba8:   CMDTUX_CAT:443: ERROR: tms_timeout group GRPITFUIF xa_abort returned
 XAER_RMERR
171104.boss1t2!TMS_ORA.20966.1.0: gtrid x0 x469b9f5c x44abaa:   CMDTUX_CAT:443: ERROR: tms_timeout group GRPITFUIF xa_abort returned
 XAER_RMERR
171104.boss1t2!tcscrm1l1server.331.1.0: LIBTUX_CAT:1397: WARN: tpreturn transaction processing failure
171109.boss1t2!TMS_ORA.20965.1.0: gtrid x0 x469b9f5c x44abac:   CMDTUX_CAT:443: ERROR: tms_timeout group GRPITFUIF xa_abort returned
 XAER_RMERR
171109.boss1t2!tcscrm1l1server.20936.1.0: LIBTUX_CAT:1397: WARN: tpreturn transaction processing failure
171109.boss1t2!TMS_ORA.20967.1.0: gtrid x0 x469b9f5c x44abab:   CMDTUX_CAT:443: ERROR: tms_timeout group GRPITFUIF xa_abort returned
 XAER_RMERR
 
13 号当天 17 点左右数据库有非正常信息。
 
 
 
1.3            北京超时
 
1.3.1    1:2007-8-16,超时
业务超时, 1000 多笔,原因:硬盘出故障,现在已经恢复。
 
现象:中心反馈落地方业务超时,业务完成周期超过集团公司的规定时间。
 
陕西的超时是落地方调不到服务(具体那次的我不清楚了),检查数据库的时候发现死锁,查后发现数据库连接池已经满了,不够用,后来检查程序后发现是程序的 BUG ,没有及时释放数据库连接对象,这个错误以前云南就出现了,单子也早提了,单子号是: YJBOSS-YNYD-YZ-BUG-20070618-001 但是可能没有及时更新。
     TPETIME(13):0:0:TPED_MINVAL(0):QMNONE(0):0 这样的异常,还有一个原因就是订购关系进行批量的时候,数据会突然猛增,服务在被调的时候来不及处理,等待超时,这样的异常目前都是将总控重新启动。或者将服务多调几个。
 
 
1.4            湖北超时
1.4.1    2007-8-12,超时
现象:中心反馈落地方业务超时,业务完成周期超过集团公司的规定时间。
原因分析:因为当天晚上正好青海主机搬迁,所以就没有继续查,没有查出具体原因。
 
 
1.5            吉林超时
1.5.1    1:2007-8-1,超时
现象描述:中心反馈落地方业务超时,业务完成周期超过集团公司的规定时间。
 
天津 8 1 号的超时原因:
日志显示为:
dMaxTime) of "600" seconds.>
<2007-8-1 00 20 13 GMT+08:00> <Error> <WebLogicServer> <BEA-000337> <ExecuteThread: '7' for queue: 'weblogic.kernel.Default' has
 been busy for "878" seconds working on the request "Http Request: /XMLReceiver", which is more than the configured time (StuckThrea
dMaxTime) of "600" seconds.>
<2007-8-1 00 20 13 GMT+08:00> <Error> <WebLogicServer> <BEA-000337> <ExecuteThread: '8' for queue: 'weblogic.kernel.Default' has
 been busy for "841" seconds working on the request "Http Request: /XMLReceiver", which is more than the configured time (StuckThrea
dMaxTime) of "600" seconds.>
<2007-8-1 00 20 13 GMT+08:00> <Error> <WebLogicServer> <BEA-000337> <ExecuteThread: '9' for queue: 'weblogic.kernel.Default' has
 been busy for "951" seconds working on the request "Http Request: /XMLReceiver", which is more than the configured time (StuckThrea
dMaxTime) of "600" seconds.>
<2007-8-1 00 20 13 GMT+08:00> <Error> <WebLogicServer> <BEA-000337> <ExecuteThread: '11' for queue: 'weblogic.kernel.Default' ha
s been busy for "881" seconds working on the request "Http Request: /XMLReceiver", which is more than the configured time (StuckThre
adMaxTime) of "600" seconds.>
<2007-8-1 00 20 13 GMT+08:00> <Error> <WebLogicServer> <BEA-000337> <ExecuteThread: '14' for queue: 'weblogic.kernel.Default' ha
s been busy for "752" seconds working on the request "Http Request: /XMLReceiver", which is more than the configured time (StuckThre
adMaxTime) of "600" seconds.>
 
 
 
   
目前超时的现象没还是比较严重的,尤其是最近几个月,由于最近上线的集团业务特别多, ADC MAS GATEWAY MUSC ,手机邮箱等,这些都是建的独立的 DOMAIN ,非常耗资源,尤其是有的数据都是批量,但是各省的主机资源没有及时的调整,上次云南的机器内存都用到 99% 了,后来及时增加了资源才没有出现严重的故障,还有就是现场在做维护的时候,部分配置不合理,甚至是错的, TUXEDO 很多都是 TAR TAR 去的,没有多服务进行一些优化。

 

以上是关于7省BUG分析一的主要内容,如果未能解决你的问题,请参考以下文章

MySQL Bug导致异常宕机的分析流程

久省优选系统商城开发app平台分析

R语言分析数据 | 31省城镇居民消费水平分析

从开发者的角度分析iOS应如何省电

第十届“泰迪杯”数据挖掘挑战赛B题:电力系统负荷预测分析 31页省一等奖论文及代码

第十届“泰迪杯”数据挖掘挑战赛B题:电力系统负荷预测分析 31页省一等奖论文及代码