Greenplum loader 不会将数据写入管道文件

Posted

技术标签:

【中文标题】Greenplum loader 不会将数据写入管道文件【英文标题】:Greenplum loader doesn't write data to pipe file 【发布时间】:2014-04-02 10:11:22 【问题描述】:

我们使用 Informatica 通过 GP 加载器将数据加载到 greenplum DB。在单个映射中,我们有并行流程来插入和更新同一 Greenplum 目标中的数据。 插入花费了很多时间,最后不得不中止工作流。

gploader 正在创建两个 yaml 文件,一个用于插入,另一个用于更新。 update 将等待插入过程完成。 但是插入过程即使是 100 条记录也需要很长时间,并且永远不会结束,我们最终必须终止该过程。

示例 YAML 文件:

%YAML 1.1
---
VERSION: 1.0.0.1

DATABASE: abcdgp_dev
USER: abcs
PASSWORD: srvb&34
HOST: 3.565.785.345
PORT: 5432
GPLOAD:
   INPUT:
     - SOURCE:
        FILE:
          - ../infa_shared/Temp/jaroswind_salesrep_mas_1_pipe
     - COLUMNS:
       - "salesrep_key":
       - "salesrep_id":
       - "salesrep_name":
   - FORMAT: CSV
     - DELIMITER: "\x24"
     - ESCAPE: '/'
     - NULL_AS: '/N'
     - QUOTE: '^'
     - ENCODING: utf8
     - ERROR_LIMIT: 500
     - ERROR_TABLE: jaroswind_err.err_SALESREP_MAS
   OUTPUT:
     - TABLE: jaroswind.salesrep_mas
     - MODE: INSERT
   PRELOAD:
     - REUSE_TABLES: True

请提出解决方案。

【问题讨论】:

【参考方案1】:

更新在插入之间锁定表

【讨论】:

以上是关于Greenplum loader 不会将数据写入管道文件的主要内容,如果未能解决你的问题,请参考以下文章

Greenplum 中的并行数据加载

GreenPlum数据加载

Greenplum 调优--VACUUM系统表

是否可以使用 GPHDFS 从 Greenplum 一次指向多个 Hadoop 集群?

通过 talend 从 oracle 加载到 greenplum 时的数据不能很好地处理 CLOB 列

全局缓存greenplum查询计划?