处理大量数据(大约 4 亿条记录)[关闭]

Posted

技术标签:

【中文标题】处理大量数据(大约 4 亿条记录)[关闭]【英文标题】:Dealing with large amount of data (around 400 million records) [closed] 【发布时间】:2013-02-26 06:12:21 【问题描述】:

我有一个大数据集(一张表),其中存储了用户 ID 字段、日期字段、国家/地区字段(例如 USA、FRA 等)和其他字段

| User ID   |    Date    |  Country  | Other Fields ... |
|-----------|------------|-----------|------------------|
| 1         | 2013-2-1   |    USA    |    ...           |
| 2         | 2013-2-1   |    FRA    |    ...           |
| 3         | 2013-2-2   |    GBK    |    ...           |

数据结构很简单,我想传递日期,国家,可能还有其他字段, 并查询答案。

问题是大约有4亿条记录,如果我使用mysql等普通数据库,速度会变得非常慢。

目前不需要特定的数据库、编程语言或方法,任何可以使其工作的工具都可以,例如 MySQL、Redis、Mongo 等,可以吗?

【问题讨论】:

【参考方案1】:

根据查询类型,拆分为多个表可能会有所帮助(对于可以提前确定哪些子表包含所需行的情况)。

这不是一个非常简洁的设计,但进一步拆分为多个数据库服务器(可能也有帮助)更加复杂。

【讨论】:

以上是关于处理大量数据(大约 4 亿条记录)[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

具有大量读写的海量数据的最佳数据存储

如何加载大量数据来训练机器学习模型? [关闭]

具有约 5 亿条记录的 Java 嵌入式数据库 [关闭]

具有大量读写和与 Spark Structured Streaming 集成性能的数据存储

MySQL INSERT... 选择包含 4.2 亿条记录的大型数据集

搜索拥有超过 10 亿条记录的数据库的最有效方法是啥?