用于大数据的 Talend Open Studio

Posted

技术标签:

【中文标题】用于大数据的 Talend Open Studio【英文标题】:Talend Open Studio for Big Data 【发布时间】:2015-06-10 07:11:30 【问题描述】:

有几台服务器,每台服务器分别包含 100 个文件。我如何能够通过 Talend 中的一个 FTP 连接从不同的服务器获取文件并将它们保存在不同的文件夹中。

有人知道如何从 FTP 下载所有文件吗? 提前致谢。

【问题讨论】:

【参考方案1】:

创建尽可能多的服务器,包含这些行的“n”个 csv 文件:

host;server_ip 端口;端口 用户;用户 密码;密码 ftp_directory;remote_dir local_directory;local_dir file_mask;file_mask

这些文件将被加载到作业的上下文中,因此我们需要创建与文件中使用的名称相同的上下文变量, 然后像这样创建你的工作:

tFileList:迭代第一步创建的上下文文件 tFileInputDelimited:读取tFileList的当前文件:((String)globalMap.get("tFileList_1_CURRENT_FILEPATH")) tContextLoad:从当前文件加载上下文变量 tFTPGet:使用所有上下文变量作为设置

【讨论】:

以上是关于用于大数据的 Talend Open Studio的主要内容,如果未能解决你的问题,请参考以下文章

在 Talend Open Studio 中删除作业发布

tMatchGroup 在 Talend Open Studio for Big Data 中的位置

如何使用 Talend Open Studio 处理数百万条 MongoDB 记录并将其插入 Postgres

Talend Open Studio:脚本语言与 Microsoft SSIS

Talend Open Studio - tssh 失去与主要工作的连接

Talend Studio - 在元数据中搜索以获取创建的所有查询