一次EXPDP数据泵性能问题诊断和调优

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一次EXPDP数据泵性能问题诊断和调优相关的知识,希望对你有一定的参考价值。

一、 环境信息:
Oracle 11.1.0.7.0 - 64bit,单机,AIX 6.1

 

二、 EXPDP性能诊断
1、 expdp脚本如下:
cat  exp_SCOTT_20180511.par 

userid="/ as sysdba"
directory=temp_dump
dumpfile=exp_SCOTT_20180511_%u.dmp
logfile=exp_SCOTT_20180511.log
cluster=n
parallel=8
compression=all
schemas=SCOTT
exclude=statistics

2、导出整个schema的时间大约为13个小时,数据量133GB:

sed -n -e '2p' -e '/method:/p' -e '$p' exp_SCOTT_2018051.log
Export: Release 11.1.0.7.0 - 64bit Production on Friday, 11 May, 2018 15:16:44
Total estimation using BLOCKS method: 133.3 GB
Job "SYS"."SYS_EXPORT_SCHEMA_01" successfully completed at 04:13:05

3、 expdp 导出过程10046 Trace追踪诊断:
因该库需要使用expdp按schema导出导入方式进行整库迁移,按照一个schema导出需要13个小时的速度是接受不了的,虽然该机器配置不是非常的好。接下来导出另外一个schema,并启用10046 trace追踪:

--查询正在执行的expdp相关会话信息:
set lines 150 pages 100 numwidth 7 
col program for a38 
col username for a10 
col spid for a7 
select to_char(sysdate,'YYYY-MM-DD HH24:MI:SS') "DATE", s.program, s.sid,   
       s.status, s.username, d.job_name, p.spid, s.serial#, p.pid   
  from v$session s, v$process p, dba_datapump_sessions d  
 where p.addr=s.paddr and s.saddr=d.saddr;
 
DATE                PROGRAM                        SID STATUS   USERNAME   JOB_NAME              SPID    SERIAL#     PID
------------------- -------------------------- ------- -------- ---------- --------------------- ------- ------- -------
2018-05-14 14:46:10 )        2814 ACTIVE   SYS        SYS_EXPORT_SCHEMA_01  488648     6557     467
2018-05-14 14:46:10 )        3243 ACTIVE   SYS        SYS_EXPORT_SCHEMA_01  124224    19566     466
2018-05-14 14:46:10 V1-V3)   2801 ACTIVE   SYS        SYS_EXPORT_SCHEMA_01  340810    61833     464
--查询对应会话是否有其它会话阻塞:
select sid,serial#,event,blocking_session,seconds_in_wait,state,last_call_et from v$session where serial# in (6557,19566,61833);
SID SERIAL# EVENT                                   BLOCKING_SESSION SECONDS_IN_WAIT STATE               LAST_CALL_ET
------- ------- -------------------------------------- ---------------- --------------- ------------------- ------------   
2801   61833 wait for unread message on broadcast channel                            1 WAITING                    46636   
2814    6557 db file sequential read                                                 0 WAITED SHORT TIME          46636   
3243   19566 wait for unread message on broadcast channel                            0 WAITING                    46638
--对相关进程进行10046 trace追踪:
oradebug setospid 124224
oradebug unlimit
oradebug event 10046 trace name context forever, level 12;
oradebug tracefile_name
--oradebug event 10046 trace name context off;

oradebug setospid 488648
oradebug unlimit
oradebug event 10046 trace name context forever, level 12;
oradebug tracefile_name
--oradebug event 10046 trace name context off;
--已上trace时间长一点,会抓取较大的信息

同时查看相关trace文件的的信息:

grep "nam=' WAIT #13: nam='db file sequential read'" TEST_dw01_488648.trc|awk '{print $12}'|sort -u
obj#=-1
obj#=0
obj#=14
...
obj#=579
obj#=596
obj#=9

发现这些在等待的这些对象基本都是SYS用户下:

select obj#,owner#,name,namespace from obj$ where obj# in (-1,0,14,3,36,559,563,566,567,575,578,579,596,9);
      
OBJ#     OWNER# NAME                            NAMESPACE
---------- ---------- ------------------------------ ----------         
3          0 I_OBJ#                                  4         
9          0 I_FILE#_BLOCK#                          4        
14         0 SEG$                                    1        
36         0 I_OBJ1                                  4       
559        0 PARTOBJ$                                1       
563        0 TABPART$                                1       
566        0 I_TABPART_BOPART$                       4       
567        0 I_TABPART_OBJ$                          4       
575        0 TABSUBPART$                             1       
578        0 I_TABSUBPART_POBJSUBPART$               4       
579        0 I_TABSUBPART$_OBJ$                      4       
596        0 LOBFRAG$                                1

同时查看expdp导出日志,是在估算大小:


Total estimation using BLOCKS method:xxx.xx GB

 

初步诊断为,expdp在导出时,要估算导出大小,需要查询sys用户下的基表,很有可能是这些查询的SQL出现了性能问题。

--抽查SEG$表的统计信息:
OWNER      PARTNAME      NROWS     BLOCKS AVGSPC CCNT ROWLEN    SSIZE ANADATE
---------- ---------- -------- ---------- ------ ---- ------ -------- -------------------
SYS                       4531        132      0    0     66     4531 2013-07-19 01:10:49

发现该表统计信息很久没有更新,接连查询其它表的统计信息,发现都是很久没有更新统计信息。于是做了如下操作,先将相关表的统计信息更新到最新:

--收集整个sys用户的统计信息:
exec dbms_stats.gather_schema_stats(ownname => 'SYS',degree=>8);
--收集数据字典的统计信息:
exec dbms_stats.gather_dictionary_stats(options =>'gather auto',degree=>16);
--收集fixed表统计信息:
exec dbms_stats.gather_fixed_objects_stats;

然后中断已经在导出的进程,等统计信息收集完成后,再执行导出,测试导出速度是否有提升。发现导出速度并没有明显提升,看来真正的问题并没有找到,再次进行trace追踪。

tkprof TEST_dm00_124224.trc tkprof_TEST_dm00_124224.out waits=y sort=exeela

tkprof TEST_dw01_488648.trc tkprof_TEST_dw01_488648.out waits=y sort=exeela

然后发现如下SQL异常:

SQL ID: aujcr6t1u8u62
Plan Hash: 3731411368
SELECT LVL FROM SYS.KU$_REF_PAR_LEVEL_VIEW WHERE OBJ# = :B1
call     count       cpu    elapsed       disk      query    current        rows
------- ------  -------- ---------- ---------- ---------- ----------  ----------
Parse        0      0.00       0.00          0          0          0           0
Execute 160363      1.87      32.76          0          0          0           0
Fetch   160362  13047.39   13496.19          0 1008676980          0           0
------- ------  -------- ---------- ---------- ---------- ----------  ----------
total   320725  13049.26   13528.96          0 1008676980          0           0
Misses in library cache during parse: 0
Elapsed times include waiting on following events:  Event waited on                             
Times   Max. Wait  Total Waited  
----------------------------------------   Waited  ----------  ------------  
db file sequential read                    169141        0.60        453.81  
db file scattered read                          3        0.01          0.02

OVERALL TOTALS FOR ALL RECURSIVE STATEMENTS
call     count       cpu    elapsed       disk      query    current        rows
------- ------  -------- ---------- ---------- ---------- ----------  ----------
Parse   167759      4.95       5.86          0          0          0           0
Execute 648851    123.59     151.44          0          0          0           0
Fetch   648850  13057.99   13507.29          0 1010718198          0      488487
------- ------  -------- ---------- ---------- ---------- ----------  ----------
total   1465460  13186.53   13664.61          0 1010718198          0      488487

查询该SQL历史执行的情况:

set lines 180 pages 9999
col execs for 999,999,999
col avg_etime for 999,999.999
col avg_lio for 999,999,999.9
col begin_interval_time for a30
col node for 99999
break on plan_hash_value on startup_time skip 1
select ss.snap_id,
       ss.instance_number node,
       begin_interval_time,
       sql_id,
       plan_hash_value,
       nvl(executions_delta, 0) execs,
       (elapsed_time_delta /
       decode(nvl(executions_delta, 0), 0, 1, executions_delta)) / 1000000 avg_etime,
       (buffer_gets_delta /
       decode(nvl(buffer_gets_delta, 0), 0, 1, executions_delta)) avg_lio,
       (disk_reads_delta /
       decode(nvl(buffer_gets_delta, 0), 0, 1, executions_delta)) avg_pio
  from DBA_HIST_SQLSTAT S, DBA_HIST_SNAPSHOT SS
 where sql_id = to_char('aujcr6t1u8u62')
   and ss.snap_id = S.snap_id
   and ss.instance_number = S.instance_number
   and executions_delta > 0
 order by 1, 2, 3;
 
--可以看到,该SQL单次执行时间为0.081秒,30分钟内只能执行20万次左右

SNAP_ID   NODE BEGIN_INTERVAL_TIME    SQL_ID        PLAN_HASH_VALUE        EXECS    AVG_ETIME        AVG_LIO    AVG_PIO
-------- ----- --------------------- ------------- --------------- ------------ ------------ -------------- ----------
54453  1 11-MAY-18 03.00.27.869 PM   aujcr6t1u8u62      3731411368        7,607         .081        6,289.2 .816221901
54454  1 11-MAY-18 03.30.30.087 PM   aujcr6t1u8u62                       20,606         .081        6,290.0          0
54455  1 11-MAY-18 04.00.32.259 PM   aujcr6t1u8u62                       20,736         .081        6,290.0          0

因为是expdp导出执行的sql,对于这样的sql有一个好处,就是可以对比相同版本的其它库的历史执行计划。
 技术分享图片

造成相同执行计划在不同库性能差异的这种情况的原因有很多,比如优化器的相关参数设置不同、机器配置不同,库本身的性能较好或库本身很空闲等。这里不对这些原因进行分析,先分析一下该SQL,看看该SQL的执行计划是否合理:

--获取该sql的绑定变量:
SQL> set linesize 200 pagesize 200
SQL> col name for a30
SQL> col datatype_string for a20
SQL> col value_string for a20
SQL> select sql_id, name, datatype_string, last_captured, value_string  from v$sql_bind_capture2 where sql_id = 'aujcr6t1u8u62' order by last_captured, position;
SQL_ID        NAME                           DATATYPE_STRING      LAST_CAPTURED       VALUE_STRING
------------- ------------------------------ -------------------- ------------------- --------------------
aujcr6t1u8u62 :B1                            NUMBER               2018-05-15 16:49:30 801250
aujcr6t1u8u62 :B1                            NUMBER               2018-05-16 10:39:08 885287

--获取真实的执行计划:
set pages 9999 line 333
var B1 number;
exec :B1 := 885287;
SELECT LVL FROM SYS.KU$_REF_PAR_LEVEL_VIEW WHERE OBJ# = :B1;
select * from table(dbms_xplan.display_cursor(null,0));


技术分享图片 

然后与该trace追踪到的执行计划进行对比:

 

 技术分享图片

发现该SQL使用的优化器模式是Rule Based Optimizer(简称RBO),是基于数据字典的优化,它根据数据字典查询有无可用的索引,如果有则使用,否则不使用,不同的访问方法有预定好的优先级,选择优先级高的执行方法。但在这里不知道它为什么没有选择走CDEF$的I_CDEF3索引,而是走了全表扫描。这也可以解释为什么收集完sys用户统计信息之后,执行计划不变的原因了。那问题来了,是使用CBO做索引扫描的执行效率高,还是现在RBO模式的效率高呢?经测试,使用Cost Based Optimizer(简称CBO)的效率高,也就是通过变量信息产生的真正执行计划。

SQL> SELECT /*+ rule */ LVL FROM SYS.KU$_REF_PAR_LEVEL_VIEW WHERE OBJ# = :B1;
no rows selected
Elapsed: 00:00:00.10
SQL> SELECT LVL FROM SYS.KU$_REF_PAR_LEVEL_VIEW WHERE OBJ# = :B1;
no rows selected
Elapsed: 00:00:00.00

既然问题已经找到,接下来就好办了,使用coe_xfr_sql_profile.sql直接绑定较优的执行计划。

 

绑定后的执行计划效果如下:
技术分享图片

绑定之后的提升效果还是很明显的,单次平均执行时间已经下降到0.002秒,平均逻辑读也成倍的下降。这里为什么说很明显呢?可能看起来0.081秒的执行效率已经很高了,但是这个sql的是需要很次执行的,在expdp导出schema的过程中,需要查询整个schema的所有对象。

优化后的导出效果,1个多小时就完成了导出:

sed -n -e '2p' -e '$p' exp_SCOTT_20180515.log
Export: Release 11.1.0.7.0 - 64bit Production on Tuesday, 15 May, 2018 16:51:22
Job "SYS"."SYS_EXPORT_SCHEMA_01" successfully completed at 18:16:51

 

三、 总结
1、 对于expdp/impdp的性能影响因素很多,比如库整体性能,机器配置情况,存储I/O资源等。
2、 有关expdp/impdp性能诊断请参考:
SRDC - 数据泵导入(IMPDP)性能问题的诊断收集 (Document 2365615.1)
SRDC - 数据泵导出性能问题的诊断收集 (Document 2365568.1)
针对数据泵导出 (expdp) 和导入 (impdp)工具性能降低问题的检查表 (Document 1549185.1)

 

 

 

以上是关于一次EXPDP数据泵性能问题诊断和调优的主要内容,如果未能解决你的问题,请参考以下文章

SQL Server超时诊断和调优

磁盘 I/O 性能监控指标和调优方法

磁盘 I/O 性能监控指标和调优方法

诊断:expdp导出时遇到错误ORA-31693和ORA-00922

性能调优案例 | 数据卸载看我的

[大数据性能调优] 第一章:性能调优的本质Spark资源使用原理和调优要点分析