万亿行公共数据集？

Posted 2023-03-25

技术标签:

【中文标题】万亿行公共数据集？【英文标题】：Trillion-row public dataset? 【发布时间】：2017-02-09 00:24:14 【问题描述】：

我正在对数据库执行一些基准测试，我想知道是否有任何公开可用的数据集包含超过 1T 行？

我知道 Google Big Query 有一些公开可用的数据集，它们是 100M+（***、gdelt-events）和 1B+（nyc-tlc）行，但找不到更大的数据集。有人知道可以下载的 1T 行数据集吗？

几个参考链接：

https://aws.amazon.com/public-datasets/ https://cloud.google.com/public-datasets/

【问题讨论】：

对一万亿行数据集进行大量处理可能会很昂贵，尤其是如果您不仔细编写查询。在开始之前做一些计算。 【参考方案1】：

有基准 wiki 表。它有我见过的最大的公共桌子。最大的表是 106B 行 (6.76TB)。如果你真的想要一万亿行，你可以简单地运行 ~10* 复制追加作业！

https://bigquery.cloud.google.com/table/bigquery-samples:wikipedia_benchmark.Wiki100B?tab=details

【讨论】：

【参考方案2】：

生成数据集不是更容易吗？当然，问题仍然是它的值分布和相关性有多现实，以及这对衡量的性能有多大影响。

如果您可以假设集群是线性扩展的，那么您可以只使用 5% 的数据和 5% 的生产集群所期望的节点数进行基准测试。无论数据集大小如何，您只需选择节点数，以便它们可以每分钟执行所需数量的请求。

备份那种大小的数据库一定是个很有趣的问题，尤其是在它不断更新的情况下。

【讨论】：

生成这么多数据需要很多时间和很大的马力。 $$$ 它应该仍然比通过 Internet 传输它并在将其存储到数据库之前存储到辅助磁盘更便宜，假设您不进行一些现实生活中的模拟来生成数据。 OTOH ***基准表似乎压缩得很好！表/数据已在 BigQuery 中。因此，您不会通过 Internet 传输任何内容或存储到“辅助磁盘”。您在 Google 的管道/基础设施上运行所有东西，即在 petabit 网络上。我了解 OP 想要下载数据集并对他自己的数据库解决方案进行基准测试。将 100B 行的表变成万亿行的表都将在 Google 基础架构上完成。这大约需要 30 分钟。然后，如果 OP 想将其导入他/她自己的数据库，他们可以导出到 GCS 并下载（正确，这可能是一个瓶颈），或者使用 Cloud Dataflow 直接从 BQ 读取，并写入到任何地方，在哪里一切都将在 GCP 上运行。然而，公平点！

以上是关于万亿行公共数据集？的主要内容，如果未能解决你的问题，请参考以下文章

访问 BigQuery 上的公共数据集

推荐系统领域常见公共数据集整理分享

如何将公共数据集导入 Google Cloud Bucket

最强数据集50个最佳机器学习公共数据，可以帮你验证idea！

访问通用爬网 AWS 公共数据集

任何身份验证日志的公共数据集？ [关闭]