kettle从oracle向mysql迁移大数据量时报错，求教

Posted 2023-03-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了kettle从oracle向mysql迁移大数据量时报错，求教相关的知识，希望对你有一定的参考价值。

OGG全称为Oracle GoldenGate,是由Oracle官方提供的用于解决异构数据环境中数据复制的一个商业工具。相比于其它迁移工具OGG的优势在于可以直接解析源端Oracle的redo log，因此能够实现在不需要对原表结构做太多调整的前提下完成数据增量部分的迁移。本篇文章将重点介绍如何使用OGG实现Oracle到mysql数据的平滑迁移，以及讲述个人在迁移过程中所碰到问题的解决方案。

（一）OGG逻辑架构

参照上图简单给大家介绍下OGG逻辑架构，让大家对OGG数据同步过程有个简单了解，后面章节会详细演示相关进程的配置方式，在OGG使用过程中主要涉及以下进程及文件：

Manager进程：需要源端跟目标端同时运行，主要作用是监控管理其它进程，报告错误，分配及清理数据存储空间，发布阈值报告等

Extract进程：运行在数据库源端，主要用于捕获数据的变化，负责全量、增量数据的抽取

Trails文件：临时存放在磁盘上的数据文件

Data Pump进程：运行在数据库源端，属于Extract进程的一个辅助进程，如果不配置Data Pump，Extract进程会将抽取的数据直接发送到目标端的Trail文件，如果配置了Data Pump，Extract进程会将数据抽取到本地Trail文件，然后通过Data Pump进程发送到目标端，配置Data Pump进程的主要好处是即使源端到目标端发生网络中断，Extract进程依然不会终止

Collector进程：接收源端传输过来的数据变化，并写入本地Trail文件中

Replicat进程：读取Trail文件中记录的数据变化，创建对应的DML语句并在目标端回放

二、迁移方案

（一）环境信息

OGG版本 OGG 12.2.0.2.2 For Oracle OGG 12.2.0.2.2 For MySQL

数据库版本 Oracle 11.2.0.4 MySQL 5.7.21

OGG_HOME /home/oracle/ogg /opt/ogg

（二）表结构迁移

表结构迁移属于难度不高但内容比较繁琐的一步，我们在迁移表结构时使用了一个叫sqlines的开源工具，对于sqlines工具在MySQL端创建失败及不符合预期的表结构再进行特殊处理，以此来提高表结构转换的效率。

注意：OGG在Oracle迁移MySQL的场景下不支持DDL语句同步，因此表结构迁移完成后到数据库切换前尽量不要再修改表结构。

（三）数据迁移

数据同步的操作均采用OGG工具进行，考虑数据全量和增量的衔接，OGG需要先将增量同步的抽取进程启动，抓取数据库的redo log，待全量抽取结束后开启增量数据回放，应用全量和增量这段期间产生的日志数据，OGG可基于参数配置进行重复数据处理，所以使用OGG时优先将增量进行配置并启用。此外，为了避免本章节篇幅过长，OGG参数将不再解释，有需要的朋友可以查看官方提供的Reference文档查询任何你不理解的参数。

1.源端OGG配置

（1）Oracle数据库配置

针对Oracle数据库，OGG需要数据库开启归档模式及增加辅助补充日志、强制记录日志等来保障OGG可抓取到完整的日志信息

查看当前环境是否满足要求，输出结果如下图所示：

（2）Oracle数据库OGG用户创建

OGG需要有一个用户有权限对数据库的相关对象做操作，以下为涉及的权限，该示例将创建一个用户名和密码均为ogg的Oracle数据库用户并授予以下权限

（3）源端OGG 管理进程(MGR)配置

（4）源端OGG 表级补全日志(trandata)配置

表级补全日志需要在最小补全日志打开的情况下才起作用,之前只在数据库级开启了最小补全日志(alter database add supplemental log data;)，redolog记录的信息还不够全面，必须再使用add trandata开启表级的补全日志以获得必要的信息。

（5）源端OGG 抽取进程(extract)配置

Extract进程运行在数据库源端，负责从源端数据表或日志中捕获数据。Extract进程利用其内在的checkpoint机制，周期性地检查并记录其读写的位置，通常是写入到本地的trail文件。这种机制是为了保证如果Extract进程终止或者操作系统宕机，我们重启Extract进程后，GoldenGate能够恢复到以前的状态，从上一个断点处继续往下运行，而不会有任何数据损失。

（6）源端OGG 传输进程(pump)配置

pump进程运行在数据库源端，其作用非常简单。如果源端的Extract抽取进程使用了本地trail文件，那么pump进程就会把trail文件以数据块的形式通过TCP/IP协议发送到目标端，Pump进程本质上是Extract进程的一种特殊形式，如果不使用trail文件，那么Extract进程在抽取完数据后，直接投递到目标端。

补充：pump进程启动时需要与目标端的mgr进程进行连接，所以需要优先将目标端的mgr提前配置好，否则会报错连接被拒绝，无法传输抽取的日志文件到目标端对应目录下

（7）源端OGG 异构mapping文件(defgen)生成

该文件记录了源库需要复制的表的表结构定义信息，在源库生成该文件后需要拷贝到目标库的dirdef目录，当目标库的replica进程将传输过来的数据apply到目标库时需要读写该文件，同构的数据库不需要进行该操作。

2.目标端OGG配置

（1）目标端MySQL数据库配置

确认MySQL端表结构已经存在

MySQL数据库OGG用户创建

mysql> create user 'ogg'@'%' identified by 'ogg';

mysql> grant all on *.* to 'ogg'@'%';

#### 提前创建好ogg存放checkpoint表的数据库

mysql> create database ogg;

（2）目标端OGG 管理进程(MGR)配置

目标端的MGR进程和源端配置一样，可直接将源端配置方式在目标端重复执行一次即可，该部分不在赘述

（3）目标端OGG 检查点日志表(checkpoint)配置

checkpoint表用来保障一个事务执行完成后，在MySQL数据库从有一张表记录当前的日志回放点，与MySQL复制记录binlog的GTID或position点类似。

#### 切换至ogg软件目录并执行ggsci进入命令行终端

shell> cd $OGG_HOME

shell> ggsci

ggsci> edit param ./GLOBALS

checkpointtable ogg.ggs_checkpoint

ggsci> dblogin sourcedb ogg@17X.1X.84.121:3306 userid ogg

ggsci> add checkpointtable ogg.ggs_checkpoint

（4）目标端OGG 回放线程(replicat)配置

Replicat进程运行在目标端，是数据投递的最后一站，负责读取目标端Trail文件中的内容，并将解析其解析为DML语句，然后应用到目标数据库中。

#### 切换至ogg软件目录并执行ggsci进入命令行终端

shell> cd $OGG_HOME

shell> ggsci

#### 添加一个回放线程并与源端pump进程传输过来的trail文件关联，并使用checkpoint表确保数据不丢失

ggsci> add replicat r_cms,exttrail /opt/ogg/dirdat/ms,checkpointtable ogg.ggs_checkpoint

#### 增加/编辑回放进程配置文件

ggsci> edit params r_cms

replicat r_cms

targetdb cms@17X.1X.84.121:3306,userid ogg,password ogg

sourcedefs /opt/ogg/dirdef/cms.def

discardfile /opt/ogg/dirrpt/r_cms.dsc,append,megabytes 1024

HANDLECOLLISIONS

MAP cms.*,target cms.*;

注意：replicat进程只需配置完成，无需启动，待全量抽取完成后再启动。

至此源端环境配置完成

待全量数据抽取完毕后启动目标端回放进程即可完成数据准实时同步。

3.全量同步配置

全量数据同步为一次性操作，当OGG软件部署完成及增量抽取进程配置并启动后，可配置1个特殊的extract进程从表中抽取数据，将抽取的数据保存到目标端生成文件，目标端同时启动一个单次运行的replicat回放进程将数据解析并回放至目标数据库中。

（1）源端OGG 全量抽取进程(extract)配置

#### 切换至ogg软件目录并执行ggsci进入命令行终端

shell> cd $OGG_HOME

shell> ggsci

#### 增加/编辑全量抽取进程配置文件

#### 其中RMTFILE指定抽取的数据直接传送到远端对应目录下

#### 注意：RMTFILE参数指定的文件只支持2位字符，如果超过replicat则无法识别

ggsci> edit params ei_cms

SOURCEISTABLE

SETENV (NLS_LANG = "AMERICAN_AMERICA.AL32UTF8")

SETENV (ORACLE_SID=cms)

SETENV (ORACLE_HOME=/data/oracle/11.2/db_1)

USERID ogg@appdb,PASSWORD ogg

RMTHOST 17X.1X.84.121,MGRPORT 7809

RMTFILE /opt/ogg/dirdat/ms,maxfiles 100,megabytes 1024,purge

TABLE cms.*;

#### 启动并查看抽取进程正常

shell> nohup ./extract paramfile ./dirprm/ei_cms.prm reportfile ./dirrpt/ei_cms.rpt &

## 查看日志是否正常进行全量抽取

shell> tail -f ./dirrpt/ei_cms.rpt

（2）目标端OGG 全量回放进程(replicat)配置

#### 切换至ogg软件目录并执行ggsci进入命令行终端

shell> cd $OGG_HOME

shell> ggsci

ggsci> edit params ri_cms

SPECIALRUN

END RUNTIME

TARGETDB cms@17X.1X.84.121:3306,USERID ogg,PASSWORD ogg

EXTFILE /opt/ogg/dirdat/ms

DISCARDFILE ./dirrpt/ri_cms.dsc,purge

MAP cms.*,TARGET cms.*;

#### 启动并查看回放进程正常

shell> nohup ./replicat paramfile ./dirprm/ri_cms.prm reportfile ./dirrpt/ri_cms.rpt &

#### 查看日志是否正常进行全量回放

shell> tail -f ./dirrpt/ri_cms.rpt

三、数据校验

数据校验是数据迁移过程中必不可少的环节，本章节提供给几个数据校验的思路共大家参数，校验方式可以由以下几个角度去实现：

1.通过OGG日志查看全量、增量过程中discards记录是否为0来判断是否丢失数据；

2.通过对源端、目标端的表执行count判断数据量是否一致；

3.编写类似于pt-table-checksum校验原理的程序，实现行级别一致性校验，这种方式优缺点特别明显，优点是能够完全准确对数据内容进行校验，缺点是需要遍历每一行数据，校验成本较高；

4.相对折中的数据校验方式是通过业务角度，提前编写好数十个返回结果较快的SQL，从业务角度抽样校验。

四、迁移问题处理

本章节将讲述迁移过程中碰到的一些问题及相应的解决方式。

（一）MySQL限制

在Oracle到MySQL的表结构迁移过程中主要碰到以下两个限制：

1. Oracle端的表结构因为最初设计不严谨，存在大量的列使用varchar(4000)数据类型，导致迁移到MySQL后超出行限制，表结构无法创建。由于MySQL本身数据结构的限制，一个16K的数据页最少要存储两行数据，因此单行数据不能超过65,535 bytes，因此针对这种情况有两种解决方式：

根据实际存储数据的长度，对超长的varchar列进行收缩；

对于无法收缩的列转换数据类型为text，但这在使用过程中可能导致一些性能问题；

2. 与第一点类似，在Innodb存储引擎中，索引前缀长度限制是767 bytes，若使用DYNAMIC、COMPRESSED行格式且开启innodblargeprefix的场景下，这个限制是3072 bytes，即使用utf8mb4字符集时，最多只能对varchar(768)的列创建索引；

3. 使用ogg全量初始化同步时，若存在外键约束，批量导入时由于各表的插入顺序不唯一，可能子表先插入数据而主表还未插入，导致报错子表依赖的记录不存在，因此建议数据迁移阶段禁用主外键约束，待迁移结束后再打开。

mysql>set global foreign_key_checks=off;

（二）全量与增量衔接

HANDLECOLLISIONS参数是实现OGG全量数据与增量数据衔接的关键，其实现原理是在全量抽取前先开启增量抽取进程，抓去全量应用期间产生的redo log，当全量应用完成后，开启增量回放进程，应用全量期间的增量数据。使用该参数后增量回放DML语句时主要有以下场景及处理逻辑：

目标端不存在delete语句的记录，忽略该问题并不记录到discardfile

目标端丢失update记录

- 更新的是主键值，update转换成insert

- 更新的键值是非主键，忽略该问题并不记录到discardfile

目标端重复insert已存在的主键值，这将被replicat进程转换为UPDATE现有主键值的行

（三）OGG版本选择

在OGG版本选择上我们也根据用户的场景多次更换了OGG版本，最初因为客户的Oracle 数据库版本为11.2.0.4，因此我们在选择OGG版本时优先选择使用了11版本，但是使用过程中发现，每次数据抽取生成的trail文件达到2G左右时，OGG报错连接中断，查看RMTFILE参数详细说明了解到trail文件默认限制为2G，后来我们替换OGG版本为12.3，使用MAXFILES参数控制生成多个指定大小的trail文件，回放时Replicat进程也能自动轮转读取Trail文件，最终解决该问题。但是如果不幸Oracle环境使用了Linux 5版本的系统，那么你的OGG需要再降一个小版本，最高只能使用OGG 12.2。

（四）无主键表处理

在迁移过程中还碰到一个比较难搞的问题就是当前Oracle端存在大量表没有主键。在MySQL中的表没有主键这几乎是不被允许的，因为很容易导致性能问题和主从延迟。同时在OGG迁移过程中表没有主键也会产生一些隐患，比如对于没有主键的表，OGG默认是将这个一行数据中所有的列拼凑起来作为唯一键，但实际还是可能存在重复数据导致数据同步异常，Oracle官方对此也提供了一个解决方案，通过对无主键表添加GUID列来作为行唯一标示，具体操作方式可以搜索MOS文档ID 1271578.1进行查看。

（五）OGG安全规则

报错信息

2019-03-08 06:15:22 ERROR OGG-01201 Error reported by MGR : Access denied.

错误信息含义源端报错表示为该抽取进程需要和目标端的mgr进程通讯，但是被拒绝，具体操作为：源端的extract进程需要与目标端mgr进行沟通，远程将目标的replicat进行启动，由于安全性现在而被拒绝连接。

报错原因

在Oracle OGG 11版本后，增加了新特性安全性要求，如果需要远程启动目标端的replicat进程，需要在mgr节点增加访问控制参数允许远程调用

解决办法

在源端和目标端的mgr节点上分别增加访问控制规则并重启

## 表示该mgr节点允许(ALLOW)10.186网段(IPADDR)的所有类型程序(PROG *)进行连接访问ACCESSRULE, PROG *, IPADDR 10.186.*.*, ALLOW

（六）数据抽取方式

报错信息

2019-03-15 14:49:04 ERROR OGG-01192 Trying to use RMTTASK on data types which may be written as LOB chunks (Table: 'UNIONPAYCMS.CMS_OT_CONTENT_RTF').

报错原因

根据官方文档说明，当前直接通过Oracle数据库抽取数据写到MySQL这种initial-load方式，不支持LOBs数据类型，而表 UNIONPAYCMS.CMSOTCONTENT_RTF 则包含了CLOB字段，无法进行传输,并且该方式不支持超过4k的字段数据类型

解决方法

将抽取进程中的RMTTASK改为RMTFILE参数官方建议将数据先抽取成文件，再基于文件数据解析进行初始化导入

参考技术A 　　前言
　　之前搭建了一个ExtJS + spring + Oracle 的这样一个报表系统的框架。因为其他部门的要求，也需要这个Framework 进行一些特殊的定制。
　　但是有一个问题是 Oracle 的数据库是需要收费的，个人使用倒没什么问题，公司使用的话就会有侵权的问题了。
　　而MySQL 则是完全免费的。
　　所以使用 ExtJS + Spring + MySQL 这样的组合应该就没什么问题了。
　　理论上来说， MySQL 已经被Oracle 收购，这两者之间的Migrate 应该比较容易，但实际的迁移还是有一些问题，以下就说一说一些实现的方式和问题。
　　方式一：手动方式导入导出
　　手动的方式导入，就是操作步骤会比较繁琐一些。
　　对Table 的结构和数据：
　　1. 使用 SQL Developer 把 oracle 的 table 的schema 和 Data（.sql 和 .xls）导出2. 使用 MySQL 的 WorkBench 创建 Table 和导入数据。
　　这里语法上会稍微有一些不同，所以需要略微做一些调整。
　　对于View 来说，特别是复杂的有子查询的Oracle View 说，要导入到MySQL 看起来就不是那么容易了。
　　方式二：使用工具Navicat 进行导入
　　
　　Navicat ，这是MySQL 官方网站上有人建议使用的工具。这是一个收费的软件。目前的收费是 1000 到1600 人民币。但是可以免费试用一个月。
　　下载安装后，启动的页面如下：
　　迁移的流程如下：
　　1. 新建数据库的连接
　　建立需要迁移的Oracle 和 MySQL 的数据库连接。
　　另外，建立Oracle 连接的时候还需要下载一个oci.dll 的文件。
　　下载地址：
　　下载之后，解压到某个目录：
　　在 Navicat 的工具 --> 选项下做类似如下设置：
　　InstantClientOptions.jpg
　　细部可以参见：
　　完成设置后，重启 navicat
　　2. 设置过连接之后，接下来就可以进行表和数据的migrate 了点击：工具 --》数据传输
　　在 "常规" 的标签页中设置需要 migrate 的连接在 “高级” 的标签页中，设置需要 migrate 哪些具体的内容：
　　配置完成之后，点 "开始" 就可以了。
　　基本上：对于 Table 的结构和数据的迁移的话，基本上没什么问题。
　　但是对于 View 的导入，因为MySQL 的View 的语法不能有子查询语句。
　　在Navite 上，可以看到从 Oracle 导入到 MySQL 的时候， View 的Checkbox 不能选取。
　　方式三：使用工具DBMover 的OracleToMySQL 进行导入DBMover这个网站也提供了 Oracle 到 MySQL 迁移的工具。
　　下载地址是：
　　这也是一个收费的软件，试用版的限制是：允许迁移的记录条数累计为10万条。
　　下载安装，启动后会先要求输入数据库连接的信息：
　　一直配置完成之后的页面是：
　　这里就只能看到table 了。
　　和Navicat比较起来，感觉这个显得简单，只能migrate table , 而且使用上也不是很方便。
　　下一次Migrate 又得重头到尾输入一次，没办法记住之前配置的连接。
　　方式四：使用工具intelligent-converters 的 oracle-to-mysql 进行导入同样是一个收费的工具：
　　下载地址：
　　使用版的限制是每个table 只能导入 5 笔数据。
　　操作方式上和DbRemover 提供的很类似。好处是能记住上次的一些连接信息。
　　同样只能对表进行导入。
　　导入的页面：本回答被提问者采纳

Kettle--MySQL生产数据库千万亿级数据量迁移方案及性能优化

大家好，我是贾斯汀！

【实战前言】

（1）不管你是学生，还是已经工作了的小伙伴，可能你在过去、现在或者未来，会遇到这样的问题，公司/项目用的是Oracle/DB2/MySQL等关系型数据库，因公司发展需求，需要完成旧数据库数据安全迁移到新数据库的重要使命，新旧数据库可能是同一种类型的数据库，也可能是不同类型的数据库，相同类型数据库还好，比如都是MySQL数据库，那么你主要只需要考虑如何将数据安全、高效的完成迁移就好，而不同类型的数据库，比如从DB2迁移数据到MySQL，这种情况就需要在进行数据迁移之前，先按照新的数据库MySQL的建表规范，正确完成数据表的重建工作~

（2）本文主要分享我个人在实际工作当中，==如何使用Kettle这款基于纯Java实现（意味着扩平台特性，也就是Windows/Linux等操作系统通用）的开源ETL数据挖掘工具，经过性能优化（性能是默认效率的5 ~ 10倍以上）之后，实现新旧数据库之间数据的安全高效迁移~

（3）我个人也是工作用到，一开始完成UAT测试环境模拟迁移DB2数

以上是关于kettle从oracle向mysql迁移大数据量时报错，求教的主要内容，如果未能解决你的问题，请参考以下文章

采用Kettle分页处理大数据量抽取任务

kettle庖丁解牛第28篇之oracle数据迁移到mysql库

采用Kettle分页处理大数据量抽取任务

JEECG示例文档使用Kettle从mysql向oracle中抽取数据

Kettle--MySQL生产数据库千万亿级数据量迁移方案及性能优化

开源ETL工具kettle--数据迁移