Talend 作业以较慢的传输速率运行

Posted

技术标签:

【中文标题】Talend 作业以较慢的传输速率运行【英文标题】:Talend job running with slow transfer rate 【发布时间】:2016-02-15 08:05:11 【问题描述】:

我是 talend 新手,经验非常有限, 我的任务需要每天执行从 sql rds 到 redshift 的每日增量更新, 但是我的工作以非常慢的传输速度运行 详情如下

我的 sql rds 查询是

SELECT
    *  
FROM
    test.ankit2 
WHERE
    id > (SELECT COALESCE(max(id), 0) as id FROM test.stagetable)

ankit2 是 myrds 中的表 和 stagetable 是 redshift 中的表 并使用 tmap 组件将组件从 rds 输入链接到 redshift 输出组件 请看图

请查看并提供您的建议 任何帮助将不胜感激 问候 AnkitTalend Etl job

【问题讨论】:

【参考方案1】:

为获得最佳 Redshift 性能,请使用 tRedshiftOutputBulkExec 组件而不是 tRedshiftOutput。它将使用选定的 S3 存储桶将数据存储为 csv,并利用超快的COPY 命令(通过这种方法,我设法提高了 20000 行/秒的写入速度)。

如果可能,最好从RDS直接卸载到S3。

【讨论】:

感谢您的建议.. 但是我没有 s3 api 密钥来执行复制操作 如果您有权访问 EC2 实例,您可以尝试在 EC2 实例上安装 Talend。您的带宽可能是此过程中的瓶颈。 8 行/秒真的很慢。

以上是关于Talend 作业以较慢的传输速率运行的主要内容,如果未能解决你的问题,请参考以下文章

vpn访问慢的检查方法

(chap1 网络基础知识)网络的构成要素

Talend 作业未运行

将数据从 redshift 传输到 postgresql

C# 程序在较慢的 PC 上运行得更快,反之亦然

在 Python 多处理进程中运行较慢的 OpenCV 代码片段