如何访问 S3 上的 aws 公共数据集?
Posted
技术标签:
【中文标题】如何访问 S3 上的 aws 公共数据集?【英文标题】:How to access aws public dataset on S3? 【发布时间】:2016-01-13 22:49:34 【问题描述】:我正在尝试使用来自 s3 的 pig 使用此 url 加载公共数据 s3://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data
LOAD 's3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data'
但它要求访问和密钥。我应该将此数据移动到我的存储桶之一吗?还是我错过了什么
【问题讨论】:
即使数据集是公开的,我们也需要将以下策略添加到 IAM 角色 "Version": "2012-10-17", "Statement": [ "Sid": " Stmt1452869694000”,“效果”:“允许”,“操作”:[“s3:*”],“资源”:[“arn:aws:s3:::datasets.elasticmapreduce/*”]] 【参考方案1】:仅当您拥有 AWS 账户时,也可以访问公共数据集。 AWS 上的每个人都可以看到数据集。因此,您需要传递凭据 - 在这种情况下是访问密钥和密钥。
【讨论】:
S3 上的公共数据集是 .lzo 压缩的,是一个序列文件。关于如何使用 PIG 处理它的任何建议? 这里是例子:mail-archives.apache.org/mod_mbox/pig-user/201405.mbox/…以上是关于如何访问 S3 上的 aws 公共数据集?的主要内容,如果未能解决你的问题,请参考以下文章
公共数据集:Amazon Customer Reviews ( s3://amazon-reviews-pds )