万亿行公共数据集?

Posted

技术标签:

【中文标题】万亿行公共数据集?【英文标题】:Trillion-row public dataset? 【发布时间】:2017-02-09 00:24:14 【问题描述】:

我正在对数据库执行一些基准测试,我想知道是否有任何公开可用的数据集包含超过 1T 行?

我知道 Google Big Query 有一些公开可用的数据集,它们是 100M+(***、gdelt-events)和 1B+(nyc-tlc)行,但找不到更大的数据集。有人知道可以下载的 1T 行数据集吗?

几个参考链接:

https://aws.amazon.com/public-datasets/ https://cloud.google.com/public-datasets/

【问题讨论】:

对一万亿行数据集进行大量处理可能会很昂贵,尤其是如果您不仔细编写查询。在开始之前做一些计算。 【参考方案1】:

有基准 wiki 表。它有我见过的最大的公共桌子。最大的表是 106B 行 (6.76TB)。如果你真的想要一万亿行,你可以简单地运行 ~10* 复制追加作业!

https://bigquery.cloud.google.com/table/bigquery-samples:wikipedia_benchmark.Wiki100B?tab=details

【讨论】:

【参考方案2】:

生成数据集不是更容易吗?当然,问题仍然是它的值分布和相关性有多现实,以及这对衡量的性能有多大影响。

如果您可以假设集群是线性扩展的,那么您可以只使用 5% 的数据和 5% 的生产集群所期望的节点数进行基准测试。无论数据集大小如何,您只需选择节点数,以便它们可以每分钟执行所需数量的请求。

备份那种大小的数据库一定是个很有趣的问题,尤其是在它不断更新的情况下。

【讨论】:

生成这么多数据需要很多时间和很大的马力。 $$$ 它应该仍然比通过 Internet 传输它并在将其存储到数据库之前存储到辅助磁盘更便宜,假设您不进行一些现实生活中的模拟来生成数据。 OTOH ***基准表似乎压缩得很好! 表/数据已在 BigQuery 中。因此,您不会通过 Internet 传输任何内容或存储到“辅助磁盘”。您在 Google 的管道/基础设施上运行所有东西,即在 petabit 网络上。 我了解 OP 想要下载数据集并对他自己的数据库解决方案进行基准测试。 将 100B 行的表变成万亿行的表都将在 Google 基础架构上完成。这大约需要 30 分钟。然后,如果 OP 想将其导入他/她自己的数据库,他们可以导出到 GCS 并下载(正确,这可能是一个瓶颈),或者使用 Cloud Dataflow 直接从 BQ 读取,并写入到任何地方,在哪里一切都将在 GCP 上运行。然而,公平点!

以上是关于万亿行公共数据集?的主要内容,如果未能解决你的问题,请参考以下文章

访问 BigQuery 上的公共数据集

推荐系统领域常见公共数据集整理分享

如何将公共数据集导入 Google Cloud Bucket

最强数据集50个最佳机器学习公共数据,可以帮你验证idea!

访问通用爬网 AWS 公共数据集

任何身份验证日志的公共数据集? [关闭]