Talend 作业以较慢的传输速率运行
Posted
技术标签:
【中文标题】Talend 作业以较慢的传输速率运行【英文标题】:Talend job running with slow transfer rate 【发布时间】:2016-02-15 08:05:11 【问题描述】:我是 talend 新手,经验非常有限, 我的任务需要每天执行从 sql rds 到 redshift 的每日增量更新, 但是我的工作以非常慢的传输速度运行 详情如下
我的 sql rds 查询是
SELECT
*
FROM
test.ankit2
WHERE
id > (SELECT COALESCE(max(id), 0) as id FROM test.stagetable)
ankit2 是 myrds 中的表 和 stagetable 是 redshift 中的表 并使用 tmap 组件将组件从 rds 输入链接到 redshift 输出组件 请看图
请查看并提供您的建议 任何帮助将不胜感激 问候 AnkitTalend Etl job
【问题讨论】:
【参考方案1】:为获得最佳 Redshift 性能,请使用 tRedshiftOutputBulkExec
组件而不是 tRedshiftOutput
。它将使用选定的 S3 存储桶将数据存储为 csv,并利用超快的COPY
命令(通过这种方法,我设法提高了 20000 行/秒的写入速度)。
如果可能,最好从RDS直接卸载到S3。
【讨论】:
感谢您的建议.. 但是我没有 s3 api 密钥来执行复制操作 如果您有权访问 EC2 实例,您可以尝试在 EC2 实例上安装 Talend。您的带宽可能是此过程中的瓶颈。 8 行/秒真的很慢。以上是关于Talend 作业以较慢的传输速率运行的主要内容,如果未能解决你的问题,请参考以下文章