一次BI系统事故教训

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一次BI系统事故教训相关的知识,希望对你有一定的参考价值。

描述: 突然之间,BI服务无法对外提供服务,整个BI+报表系统是ORACLE11G+OBIEE11G+Weblogic11G+Informatica8.6 构成,整个系统几乎是一己之力完成到上线。昨天甲方人员打电话给我,突然之间所有BI的站点,报表都无法登陆,查看后台服务,都正常。于是建议对方重启。还是没有解决,于是仔细分析日志。最终定位到问题所在。

   1.  OBIEE11G sawserver 的7001 anaytics web界面登陆,密码用户甲方确认无误。登陆还是现实密码或用户名错误 。 问题有点不对劲

   2. 试用OBIEE11G Administrator Tool 连接 在线逻辑模型,登陆显示报错 。

    [nQSError: 37001]无法连接 Oracle BI Server 实例

   3. 查看ORACLE BI Server  服务, opmnctl status   所有服务都处于激活状态。  可以排除 BI Server 端口占用的问题, 捉摸着是中间件的bi_platform中的服务有些可以崩溃了。 进一步查看 ORACLE BI Server 的日志 。

            有如下报错

      [2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8]  [85004] MDX Member Name Cache subsystem recovered entries: 0, size: 0 bytes.
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8]  [13026] Error in getting roles from BI Security Service:  ‘Error Message From BI Security Service: PolicySet Invalid: WSM-06102 PolicyReference 策略引用 URI "oracle/wss_username_token_service_policy" 无效。 ‘ 
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8] nqsserver:    Clustered Oracle BI Server started.  Version: 11.1.1.6.0.120104.0152.000.
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: 94c]  [43071] A connection with Cluster Controller bi-4lna2lrlna7w:9706 was established.
[2013-04-18T14:35:39.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCO8qy8F0Fg5xFDCiW0000Xo000003] [tid: a6c] Error Message From BI Security Service: PolicySet Invalid: WSM-06102 PolicyReference 策略引用 URI "oracle/wss_username_token_service_policy" 无效。 
[2013-04-18T14:35:39.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCO8qy8F0Fg5xFDCiW0000Xo000003] [tid: a6c]  [nQSError: 43126] Authentication failed: invalid user/password.

         4.可以定位问题了,基本是由于

    This issues occur, when the application wsm-pm is not running. To resolve this, login to EM -> Application Deployments -> Internal Applications. The two applications wsm-pm on AdminServer and managed server should be up and running.

         5.进入Weblogic Em 查看 WSM-PM服务 ,该服务处于崩溃状态。 重新启动。报错如下:

        RDBMS Error,ORA-28001: the password has expired。 恍然大悟,非天灾人祸也。

        6. Oracle 11G 有个新特性可以设置密码过期时间,

        通过SQL查看

      SQL> conn DEV1_MDS/Admin123
ERROR:
ORA-28001: the password has expired
       通过SQL查看

       SQL> select * from dba_profiles where profile=‘DEFAULT‘ AND resource_name=‘PASSW
ORD_LIFE_TIME‘
  2  ;

PROFILE                        RESOURCE_NAME                    RESOURCE
------------------------------ -------------------------------- --------
LIMIT
----------------------------------------
DEFAULT                        PASSWORD_LIFE_TIME               PASSWORD
360

更改 DEV1_MDS 的口令
新口令:
重新键入新口令:
口令已更改
已连接。
SQL> conn DEV1_BIPLATFORM/Admin123
ERROR:
ORA-28001: the password has expired


更改 DEV1_BIPLATFORM 的口令
新口令:
重新键入新口令:
口令已更改
已连接。

    7.重新启动 wms-em 服务,启动成功。

    8.登陆 BIEE Administrator Tool ,登陆成功.

    9.登陆报表和BI系统,登陆成功。

   

    总结:这个案例比较的典型,进入大数据时代的集成系统的问题。 原来的OLTP或者BS的系统,问题比较单一,瓶颈比较单一,大部分瓶颈问题集中在数据库。

现在进入大数据时代,是个多数据源整合(分布式系统),业务单元网状集成的状况,不是说数据库DBA和中间件不重要了,是各个环节都有可能成为问题环境,要做到 开发运维一条心 ,还真不容易,扯的有点远,废话有点多。 总之跟我有点关系,当初在开发完成交付时,没有强调这个过期密码的问题 。最近出问题是必然娘的。

 

 转:http://www.cnblogs.com/jerryxing/archive/2013/04/18/3028660.html

以上是关于一次BI系统事故教训的主要内容,如果未能解决你的问题,请参考以下文章

生产事故-记一次特殊的OOM排查

领英Hadoop数据丢失事故,我们从中得到了哪些教训?

重大事故·业务平台服务器系统损坏

记一次线上事故

记一次线上事故

翻车现场:一次JVM FullGC引发的宕机事故