如何访问 S3 上的 aws 公共数据集?

Posted

技术标签:

【中文标题】如何访问 S3 上的 aws 公共数据集?【英文标题】:How to access aws public dataset on S3? 【发布时间】:2016-01-13 22:49:34 【问题描述】:

我正在尝试使用来自 s3 的 pig 使用此 url 加载公共数据 s3://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data

LOAD 's3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-us-all/4gram/data'

但它要求访问和密钥。我应该将此数据移动到我的存储桶之一吗?还是我错过了什么

【问题讨论】:

即使数据集是公开的,我们也需要将以下策略添加到 IAM 角色 "Version": "2012-10-17", "Statement": [ "Sid": " Stmt1452869694000”,“效果”:“允许”,“操作”:[“s3:*”],“资源”:[“arn:aws:s3:::datasets.elasticmapreduce/*”]] 【参考方案1】:

仅当您拥有 AWS 账户时,也可以访问公共数据集。 AWS 上的每个人都可以看到数据集。因此,您需要传递凭据 - 在这种情况下是访问密钥和密钥。

【讨论】:

S3 上的公共数据集是 .lzo 压缩的,是一个序列文件。关于如何使用 PIG 处理它的任何建议? 这里是例子:mail-archives.apache.org/mod_mbox/pig-user/201405.mbox/…

以上是关于如何访问 S3 上的 aws 公共数据集?的主要内容,如果未能解决你的问题,请参考以下文章

访问 BigQuery 上的公共数据集

公共数据集:Amazon Customer Reviews ( s3://amazon-reviews-pds )

访问 aws s3 公共存储桶

GCP BQ - 如何在 GCP 控制台 BQ Explorer 中访问公共数据集

万亿行公共数据集?

如何将公共数据集导入 Google Cloud Bucket