用于大数据的 Talend Open Studio
Posted
技术标签:
【中文标题】用于大数据的 Talend Open Studio【英文标题】:Talend Open Studio for Big Data 【发布时间】:2015-06-10 07:11:30 【问题描述】:有几台服务器,每台服务器分别包含 100 个文件。我如何能够通过 Talend 中的一个 FTP 连接从不同的服务器获取文件并将它们保存在不同的文件夹中。
有人知道如何从 FTP 下载所有文件吗? 提前致谢。
【问题讨论】:
【参考方案1】:创建尽可能多的服务器,包含这些行的“n”个 csv 文件:
host;server_ip 端口;端口 用户;用户 密码;密码 ftp_directory;remote_dir local_directory;local_dir file_mask;file_mask这些文件将被加载到作业的上下文中,因此我们需要创建与文件中使用的名称相同的上下文变量, 然后像这样创建你的工作:
tFileList:迭代第一步创建的上下文文件 tFileInputDelimited:读取tFileList的当前文件:((String)globalMap.get("tFileList_1_CURRENT_FILEPATH"))
tContextLoad:从当前文件加载上下文变量
tFTPGet:使用所有上下文变量作为设置
【讨论】:
以上是关于用于大数据的 Talend Open Studio的主要内容,如果未能解决你的问题,请参考以下文章
tMatchGroup 在 Talend Open Studio for Big Data 中的位置
如何使用 Talend Open Studio 处理数百万条 MongoDB 记录并将其插入 Postgres
Talend Open Studio:脚本语言与 Microsoft SSIS