如何提高datapump操作性能

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何提高datapump操作性能相关的知识,希望对你有一定的参考价值。

一.影响DataPump相关的DataPump参数
access_method
在某些情况下由Data Pump API所选择的方法不能快速的访问你的数据集。在这种情况下除了显式地设置该参数来测试每一种访问方法之外你是无法知道那种访问方法更高效的。该参数有两种选项direct_path与external_table
cluster=n
在RAC环境中可以显著提供高Data Pump API基本操作的速度。注意这个参数只对Data Pump API操作起作用,在RAC环境中,建议将该参数设置为n。而如果将parallel_force_local设置为true所带来的影响不仅仅只针对Data Pump API操作
data_options=disable_append_hint
它只是impdp参数,在非常特殊的情况下,可以安全的使用并且可能减少导入数据的时间。只有满足以下所有条件时才使用data_options=disable_append_hint参数。
1.导入操作将向已经存在的表,分区或子分区导入数据
2.将被导入的已经存在的对象数非常少(比如是10或者更小)
3.当执行导入操作时其它会话对于这些被导入的对象只执行select语句。
data_options=disable_append_hint参数只有在11.2.0.1与更高版本中才可以使用。只有在要锁定由其它会话所释放对象花费很长时间的情况下使用data_option=disable_append_hint才能节省时间。
estimate
estimate参数有两个相互排斥的选项,一个是blocks,另一个是statistics.在执行导出操作时使用blocks方法来评估数据集大小比使用statistics方法消耗的时间更长。但是使用blocks方法评估的数据集大小要比使用statistics方法评估的数据集大小要精确些。如果导出文件的评估大小不是最主要关注的事,建议使用estimate=statistics。
exclude=comment
在某些情况下,终端用户不需要列和对象类型对应的注释,如果忽略这些数据,DataPump操作将会减少执行时间。
exclude=statistics
如果不需要使用排斥的include参数,那么排除和导出统计信息将会缩短整个导出操作的时间。dbms_stats.gather_database_stats过程将在数据导入到目标数据库后来生成统计信息。DataPump操作当由DataPump引擎和任何其它的RDBMS会话并行执行对小表生成统计信息时可能会hang且无限期。对于运行时间超过1小时或更长时间的DataPump操作,可以考虑禁用数据库的自动统计信息收集任务为了临时禁用11g的自动统计信息收集任务因此DataPump操作不会与该任务产生竞争,以sys用户执行以下命令:
exec dbms_auto_task_admin.diable(client_name=>\'auto optimizer stats collection\',
operation=>null,window_name=>null);
在DataPump操作完成之后重新启动统计信息收集任务:
exec DBMS_AUTO_TASK_ADMIN.ENABLE(client_name => \'auto optimizer stats collection\', operation => NULL, window_name => NULL);
为了临时禁用10g的自动统计信息收集任务因此DataPump操作不会与该任务产生竞争,以sys用户执行以下命令:
exec sys.dbms_scheduler.disable (\'GATHER_STATS_JOB\');
在DataPump操作完成之后重新启动统计信息收集任务:
exec sys.dbms_scheduler.enable (\'GATHER_STATS_JOB\');
network_link
使用这个参数将会有效限制DataPump API的并行度,除非你的网络吞吐量和网络带宽比本地设备更好,使用network_link将会比使用导出文件慢很多。对于DataPump API性能来说,因为它倾向于比dump文件操作要慢很多,只建议network_link作为最后一招来使用。可以考虑使用移动或共享设备来存储dump文件来代替network_link来执行数据的迁移。
parallel
如果有多个CPU使用并且没有使用CPU绑定或磁盘I/O绑定或内存绑定且在dumpfile参数中没有使用多个dump文件,那么并行执行将会对性能产生正面影响。如果parallel参数设置为N,N>1,那么为了更好的使用并行执行建议dumpfile参数应该设置为不比parallel参数小。
需要注意的是,parallel参数是DataPump API可以使用的并发Data Pump工作进程的上限,但DataPump API可能使用的DataPump工作进程数要比这个参数指定的少,依赖于主机环境中的瓶颈,parallel参数指定的值小于可用CPU个数时Data Pump API基本操作可能会更快。
query
使用query参数会显著增加任何DataPump API基本操作的负载,这种开销与被查询表的数据量成正比。
remap_*
使用任何remap_*参数会显著增加任何DataPump API基本操作的负载,这种开销与被查询表的数据量成正比。
二.影响DataPump操作性能的相关数据库参数
aq_tm_processes=0
当这个参数被显式设置为0,可能对高级队列操作产生负面影响,进而对使用高级队列的DataPump基本操作产生负面影响。可以复原这个参数或者设置一个大于0的值
deferred_segment_creation=true
只适用于导入操作,这将会消除为空表分配空间所花费的时间。对于导出操作设置这个参数将不会对性能产生显著的影响。这个参数在11.2.0.2或更高版本中非常有用。
filesystemio_option=...
在特定情况下数据库实例将会对ACFS文件系统执行写操作,指定Data Pump API执行的写操作类型性质作为导出操作的一部分,NONE以外的其它参数值都可能造成导出操作变慢。
NLS_CHARACTERSET=... and NLS_NCHAR_CHARACTERSET=...
当源数据库与目标数据库之间这两个参数存在差异时,在任何时候执行导入操作时对于指定的分区表都不能使用多个DataPump工作进程来创建分区表和填充。在有些情况下,只有一个DataPump工作进程可以对表数据执行操作,这将会对表获得排他锁来阻止任何其它DataPump工作进程对相同的表执行操作。当分区表不存在排他锁时可以使用多个DataPump工作进程同时操作来显著提高对分区表导入数据的性能。
NLS_COMP=... and NLS_SORT=...
在一些罕见的情况下,数据库的这两个参数被设置为了binary这将显著提高DataPump API基本操作的速度。对于你的环境是否将这两个参数设置为binary能提高性能需要进行测试。在会话登录后在会话级别设置这两个参数可以通过以下的登录触发器来实现。
CREATE OR REPLACE TRIGGER sys.expdp_nls_session_settings AFTER LOGON ON DATABASE
DECLARE
V_MODULE VARCHAR2(60);
BEGIN
SELECT SYS_CONTEXT (\'USERENV\', \'MODULE\') INTO V_MODULE FROM DUAL;
IF UPPER(V_MODULE) LIKE \'UDE%\'
THEN
BEGIN
EXECUTE IMMEDIATE \'ALTER SESSION SET NLS_COMP=\'\'BINARY\'\'\';
EXECUTE IMMEDIATE \'ALTER SESSION SET NLS_SORT=\'\'BINARY\'\'\';
END;
END IF;
END;
/
parallel_force_local=true
在RAC环境中可以显著提高DataPump API基本操作的性能并且避免并行DML操作的bug。但这个参数只能对11.2.0.2或更高版本使用。
streams_pool_size
为了避免bug 17365043 \'STREAMS AQ: ENQUEUE BLOCKED ON LOW MEMORY WHEN REDUCING STREAMS_POOL_SIZE\'
建议将streams_pool_size设置以下查询所返回的结果值
select \'ALTER SYSTEM SET STREAMS_POOL_SIZE=\'||(max(to_number(trim(c.ksppstvl)))+67108864)||\' SCOPE=SPFILE;\'
from sys.x$ksppi a, sys.x$ksppcv b, sys.x$ksppsv c
where a.indx = b.indx and a.indx = c.indx and lower(a.ksppinm) in (\'__streams_pool_size\',\'streams_pool_size\');
_memory_broker_stat_interval=999
如果在你的缓慢DataPump环境中resize操作消耗了大量时间,那么设置这个参数将会减少resize操作的频率,进而在一个指定时间跨度内减少resize操作延迟其它操作的所花的时间。这是因为DataPump API依赖大量的流功能来帮助导出和导入操作。建议将这个参数设置为999,如果streams_pool_size参数已经被显式设置并且频繁的出现resize操作。
三.表DDL级别影响DataPump性能的相关参数
network_link+securefiles
network_link参数当移动包含有lob列的表,且lob是为了使用securefiles将会使移动操作非常缓慢,当使用network_link参数移动包含用了使用securefiles而有lob列的表时会生成大量undo数据。原因是分布式事务分配请求被限制为跨数据库链路一次只有一个数据块,这意味着大数据集传输将会产生更多的传输。
securefiles(不使用network_link)
使用securefiles存储格式来存储LOB列数据允许包含lob列的表使用并行执行导出和导入
使用basicfiles存储格式来存储LOB列数据不允许包含lob列的表使用并行执行导出和导入
四.表DML级别影响DataPump性能的相关参数
在DataPump操作和另一个访问数据库对象的会话之间产生竞争(通常是对表,行数据的锁)
DataPump引擎在执行导出操作时将会等待由其它会话将其持有的行锁与表锁先释放,再执行相关表的导出和导入。DataPump引擎在执行导出操作时将会等待由其它会话所持有的行锁与表锁先释放再执行导出操作而典型导出工具不会等待。因此导出一张正在被频繁更新的表要比导出一个当前没有被更新的表要慢
参考技术A DriverManager // static try java.sql.DriverManager.registerDriver(new Driver()); catch (SQLException E) throw new RuntimeException("Can't register driver!"); 原来,Driver在static块中会注册自己到java.sql.DriverManager。

Java 编程:如何提高性能?(简单总结篇)

开发者在编程中除了要有编程规范,还要注意性能,在 Java 编程中有什么提高性能的好办法呢?

本文转自国内 ITOM 行业领军企业 OneAPM Cloud Insight(一款能够优雅监控多种操作系统、数据库、中间件、云主机的解决方案)美女工程师陈永梅简书。

开发者在编程中除了要有编程规范,还要注意性能哦,今天就工作中遇到的一些问题进行了一个简单总结,希望攻城狮来批评指正。

作为一个QA,从质量管理方面得到的认识:

  • 一行代码能解决的问题 尽量不要使用多行,代码行数越多 维护成本越高,出现缺陷的概率也就越多;

  • 一行代码编写可能只需要 30s,发现并优化一行代码产生的性能问题需要 72h,甚至更多。

不说了,下面就简单说下实际编程过程中性能相关的问题吧:

1、循环逻辑中减少创建对象次数

例如:

for(int i = 0;i < list.size; i ++) {

}

应替换为:

for(int i = 0,int len = list.size();i < len; i ++) {

}

2、关注循环结构是否存在多次访问网络、数据库等操作

原则:能够一次性查询完成的 尽量避免多次查询。

优化前:

技术分享

优化后:

技术分享

3、对象容错性差

技术分享

原则:参数传递过程中不要直接转换使用 JSONObject 这种对象,如果取值不存在该方法会报异常导致程序中止,尽量转为 JavaBean 或 Map;否则应先判断取的值是否存在。最好以 JavaBean 封装接收参数,并对参数进行初步较验,不能将数据完整性交给前端处理。

如果使用 JSONObject 对象,应先进行存在判断if(json.contains(“xxx”))

4、对需要缓存的信息进行合理设计

原则:登录功能要分析哪些是跟用户密切相关的,如 session 信息,哪些是跟业务系统属性相关的,如系统配置资源信息。后者则应当进行缓存处理,避免每次登录都构建获取信息。

技术分享

5、业务逻辑的执行顺序问题

原则:在进行逻辑判断的过程中,尽量使复杂操作延迟执行,不要提前执行;如登录操作,只有登录成功后才做相关资源加载、查询操作;

如示例:静态资源应尽量后置,建议大家在业务逻辑梳理时先否定再肯定,也就是先列不满足业务的条件。

优化前:

技术分享

优化后:

技术分享

6、Try…catch 相对消耗性能比较严重,尽量减少使用频率,使用中尽量扩大作用范围,禁止出现在循环等操作中。

7、创建类似数组等可以设定大小的对象,应尽可能指定大小,最大限度减少内存空间的浪费。

8、HashMap 的读取遍历使用 entry,而不是先取 key 集合,再取值。

9、在方法中创建的对象最好在使用完毕后将引用指向 null,利于 GC 垃圾回收。

10、数组复制使用 system.arraycopy(),减少使用创建新数组赋值的方法。

11、方法大小不要超过80行,方法栈太深容易导致内存溢出;尽量不要出现功能太少的类,类的维护也需要性能开销。

12、创建复杂对象应使用clone方法,减少构造方法调用的开销。

13、待续...

Cloud Insight 集监控、管理、计算、协作、可视化于一身的数据管理平台,帮助所有 IT 公司,减少在系统监控上的人力和时间成本投入,让运维工作更加高效、简单。

 

以上是关于如何提高datapump操作性能的主要内容,如果未能解决你的问题,请参考以下文章

如何用VB.NET StringBuilder优化字符串操作性能

如何优化 Django REST Framework 的性能

我应该使用哪个 PHP 操作码缓存器来提高性能? [关闭]

使用 VIEW 进行 SELECT 操作可以提高性能吗?

提高性能及操作硬件的能力

提高C#质量与性能