处理大量数据（大约 4 亿条记录）[关闭]

Posted 2023-04-18

技术标签:

【中文标题】处理大量数据（大约 4 亿条记录）[关闭]【英文标题】：Dealing with large amount of data (around 400 million records) [closed] 【发布时间】：2013-02-26 06:12:21 【问题描述】：

我有一个大数据集（一张表），其中存储了用户 ID 字段、日期字段、国家/地区字段（例如 USA、FRA 等）和其他字段

| User ID   |    Date    |  Country  | Other Fields ... |
|-----------|------------|-----------|------------------|
| 1         | 2013-2-1   |    USA    |    ...           |
| 2         | 2013-2-1   |    FRA    |    ...           |
| 3         | 2013-2-2   |    GBK    |    ...           |

数据结构很简单，我想传递日期，国家，可能还有其他字段，并查询答案。

问题是大约有4亿条记录，如果我使用mysql等普通数据库，速度会变得非常慢。

目前不需要特定的数据库、编程语言或方法，任何可以使其工作的工具都可以，例如 MySQL、Redis、Mongo 等，可以吗？

【问题讨论】：

【参考方案1】：

根据查询类型，拆分为多个表可能会有所帮助（对于可以提前确定哪些子表包含所需行的情况）。

这不是一个非常简洁的设计，但进一步拆分为多个数据库服务器（可能也有帮助）更加复杂。

【讨论】：

以上是关于处理大量数据（大约 4 亿条记录）[关闭]的主要内容，如果未能解决你的问题，请参考以下文章

具有大量读写的海量数据的最佳数据存储

如何加载大量数据来训练机器学习模型？ [关闭]

具有约 5 亿条记录的 Java 嵌入式数据库 [关闭]

具有大量读写和与 Spark Structured Streaming 集成性能的数据存储

MySQL INSERT... 选择包含 4.2 亿条记录的大型数据集

搜索拥有超过 10 亿条记录的数据库的最有效方法是啥？