amazon datapipeline 中 redshift 副本的 sqlactivity 不会为文件名选择通配符
Posted
技术标签:
【中文标题】amazon datapipeline 中 redshift 副本的 sqlactivity 不会为文件名选择通配符【英文标题】:sqlactivity for redshift copy in amazon datapipeline does not pick wild card characters for filenames 【发布时间】:2015-02-20 22:58:56 【问题描述】:我正在使用亚马逊数据管道中的 sqlActivity 将数据复制到我的 redshift 表中。 如果我指定一个像 part-00000.gz 这样的文件名,则脚本运行良好,但是当我指定通配符 .gz 来选择目录中的所有文件时,我得到错误,通配符实际上被认为是文件名,所以它抱怨文件名 Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/.gz 不存在
开始交易; 创建临时表 ip_to_filename_staging_table(如 bens_analytics_ip_to_filename);
从 's3://er-hadoop/Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/*.gz' 复制 ip_to_filename_staging_table 凭证 'aws_access_key_id=;aws_secret_access_key=' gzip 分隔符 '\t' COMPUPDATE OFF STATUPDATE OFF;
使用 bens_analytics_ip_to_filename 从 ip_to_filename_staging_table 中删除 其中(ip_to_filename_staging_table.day = bens_analytics_ip_to_filename.day 和 ip_to_filename_staging_table.ip = bens_analytics_ip_to_filename.ip 和 ip_to_filename_staging_table.filename = bens_analytics_ip_to_filename.filename);
插入bens_analytics_ip_to_filename select * from ip_to_filename_staging_table;
删除表 ip_to_filename_staging_table; 结束交易;
【问题讨论】:
【参考方案1】:我想通了 当我使用像 's3://er-hadoop/Output/Prod/Bens_Analytics/2015/02/10/IP_To_FileName/part' 这样的路径时,它选择了所有 part-xxxxx.gz 文件
【讨论】:
以上是关于amazon datapipeline 中 redshift 副本的 sqlactivity 不会为文件名选择通配符的主要内容,如果未能解决你的问题,请参考以下文章
Red5 媒体服务器:如何让 rtmp 在 Amazon EC2 上运行?
在 Amazon Web Services EC2 上运行的 Red Hat Enterprise Linux 中禁止使用 phpmyadmin
sh 使用Crontab和Amazon EC2上的s3cmd.Red Hat Linux对Amazon S3进行MongoDB自动备份