访问通用爬网 AWS 公共数据集

Posted 2023-04-14

技术标签:

【中文标题】访问通用爬网 AWS 公共数据集【英文标题】：Access a common crawl AWS public dataset 【发布时间】：2013-05-15 00:17:16 【问题描述】：

我需要浏览和下载 common crawl 的公共数据集的子集。 This 页面提到了数据的托管位置。如何浏览并可能下载托管在 s3://aws-publicdatasets/common-crawl/crawl-002/ 上的常见爬网数据？

【问题讨论】：

【参考方案1】：

作为更新，下载 Common Crawl 语料库一直是免费的，您可以使用 HTTP 代替 S3。 S3 允许您使用匿名凭据来访问数据。

如果要通过 HTTP 下载，请获取文件位置之一，例如：

common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

然后添加https://commoncrawl.s3.amazonaws.com/，得到链接：

https://commoncrawl.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

要获取所有此类文件的列表，请参阅最近爬取的 warc.paths.gz（或 WET 或 WAT 文件的等效文件），或使用 s3cmd 或类似工具使用匿名凭据列出文件。

此链接有效，您无需通过 S3 即可下载数据。

【讨论】：

【参考方案2】：

对 Common Crawl 爬网的一般数据访问在以下位置进行了讨论： http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

我认为获取一些试验数据的有用方法是使用存档的新索引： http://index.commoncrawl.org/CC-MAIN-2015-18

例如，如果您查询“www.cwi.nl”，您会发现关于包含来自该域的文件的段的 JSON 结构。


 "urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
 "status": "200", "url": "http://www.cwi.nl/", 
 "filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
 "length": "5881", "mime": "text/html", "offset": "364108412", 
 "digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"

为其添加 s3 信息前缀，您可以下载可用作示例数据的数据文件： https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

玩得开心！

【讨论】：

点击您发布的链接时，我得到This XML file does not appear to have any style information associated with it. The document tree is shown below，这是预期的吗？【参考方案3】：

要访问 Common Crawl 数据，您需要运行 map-reduce 作业反对它，并且由于语料库位于 S3 上，您可以通过使用 Amazon 的 EC2 服务运行 Hadoop 集群。这涉及设置一个使用我们自定义 InputFormat 的自定义 hadoop jar 类从我们的 S3 存储桶中的各个 ARC 文件中提取数据。

来源：http://commoncrawl.org/the-data/

开始使用：http://commoncrawl.org/the-data/get-started/

【讨论】：

这是访问数据的一种方式——但不是唯一的方式。【参考方案4】：

其他答案有一些很好的信息 url，但是对于访问实际数据，如果你只想要它的一小部分，这个客户端代码非常适合查看索引和下载内容：

https://github.com/cocrawler/cdx_toolkit

【讨论】：

以上是关于访问通用爬网 AWS 公共数据集的主要内容，如果未能解决你的问题，请参考以下文章

万亿行公共数据集？

访问 BigQuery 上的公共数据集

Google BigQuery 通过 API 访问公共数据集

GCP BQ - 如何在 GCP 控制台 BQ Explorer 中访问公共数据集

通过其API访问kaggle数据集

分享自然语言处理领域公开数据集