处理大量数据(大约 4 亿条记录)[关闭]
Posted
技术标签:
【中文标题】处理大量数据(大约 4 亿条记录)[关闭]【英文标题】:Dealing with large amount of data (around 400 million records) [closed] 【发布时间】:2013-02-26 06:12:21 【问题描述】:我有一个大数据集(一张表),其中存储了用户 ID 字段、日期字段、国家/地区字段(例如 USA、FRA 等)和其他字段
| User ID | Date | Country | Other Fields ... |
|-----------|------------|-----------|------------------|
| 1 | 2013-2-1 | USA | ... |
| 2 | 2013-2-1 | FRA | ... |
| 3 | 2013-2-2 | GBK | ... |
数据结构很简单,我想传递日期,国家,可能还有其他字段, 并查询答案。
问题是大约有4亿条记录,如果我使用mysql等普通数据库,速度会变得非常慢。
目前不需要特定的数据库、编程语言或方法,任何可以使其工作的工具都可以,例如 MySQL、Redis、Mongo 等,可以吗?
【问题讨论】:
【参考方案1】:根据查询类型,拆分为多个表可能会有所帮助(对于可以提前确定哪些子表包含所需行的情况)。
这不是一个非常简洁的设计,但进一步拆分为多个数据库服务器(可能也有帮助)更加复杂。
【讨论】:
以上是关于处理大量数据(大约 4 亿条记录)[关闭]的主要内容,如果未能解决你的问题,请参考以下文章
具有大量读写和与 Spark Structured Streaming 集成性能的数据存储