具有大量读写的海量数据的最佳数据存储

Posted

技术标签:

【中文标题】具有大量读写的海量数据的最佳数据存储【英文标题】:Best Data Store for huge data with large number of reads and writes 【发布时间】:2012-01-26 16:06:07 【问题描述】:

我需要在数据库中存储大约 1 亿条记录。每天将删除大约 60-70% 的记录,每天插入相同数量的记录。我觉得像 Hbase、Big Table 这样的文档数据库很适合。还有许多其他数据存储,例如 Cassandra、MongoDb 等。哪种数据存储对此类问题很有用,因为每天会有大量的读/写(数以百万计)。

【问题讨论】:

也许你想要一个效率比较。您可以在他们的网站上看到这些数据存储中的每一个性能。我们在类似情况下使用 Cassandra,但我没有使用过其他数据存储 您的数据性质可能也会影响此数据库比较 很多数据存储可以处理 1 亿条记录以及这些读取/删除率。记录的大小是多少?您的数据访问模式是什么?写入与读取比率等? @ArnonRotem-Gal-Oz:每条记录的大小约为 100KB,读写比为非周末 24:25 和周末 5:7。跨度> @sravan_kumar 访问数据怎么样?按键?复杂的查询? 【参考方案1】:

根据您提到的特征(JSON 文档、按键访问、1 亿条记录、平衡读/写)我会说 CouchDB 或 Membase 是不错的候选者(这里是 quick comparison)

HBase 和 Cassandra 可能也可以工作,但对于 HBase,您需要安装很多您不会真正使用的组件(Hadoop、ZooKeeper 等),仅当您有更多写入时 Cassandra 会更好阅读(至少我最后一次使用它)。

大表,不幸的是谷歌内部的:)

【讨论】:

以上是关于具有大量读写的海量数据的最佳数据存储的主要内容,如果未能解决你的问题,请参考以下文章

杉岩数据:对象存储是企业海量非结构化数据存储的最佳选择

HDFS的读写背后

构建具有大量数据通信的系统的最佳方法是啥?

基于云上分布式NoSQL的海量气象数据存储和查询方案

硬核!4.5万字手把手教你搭建MySQL海量数据存储架构!!(全程实战,建议收藏)

HBase实战 | 贝壳找房HBase 2.0在时序数据存储方向的应用