大型数据存储(nosql 与否)
Posted
技术标签:
【中文标题】大型数据存储(nosql 与否)【英文标题】:Large data store (nosql or not) 【发布时间】:2010-07-18 05:33:33 【问题描述】:我需要存储大量科学数据(150 TB+ 起始数据),我想知道存储数据的最佳方式(nosql 或 RDBMS 等...)
任何提示......
詹姆斯
【问题讨论】:
【参考方案1】:回答这个问题以从 NoSQL 或 RDBMS 中进行选择:“我的数据是按关系结构化的吗?”
【讨论】:
【参考方案2】:这实际上取决于您以后需要如何处理数据。如果数据是几个非常大的文件的集合,那么普通的文件系统就可以了。如果您需要能够搜索和分析数据,那么数据库可能是最佳解决方案。
我也在科学环境中处理大型数据集。这些数据大部分是表格的,当我们开始时,我们存储的每个数据点都是一个表格。我们发现最终压缩表并将其以二进制 blob 形式存储到数据库中要容易得多。在一个单独的表中,我们存储了有关这些表的元数据。
【讨论】:
【参考方案3】:科学数据有专门的数据库:http://www.dbms2.com/2009/09/12/xldb-scid/
【讨论】:
【参考方案4】:它必须是一种数据库类型吗? NoSQL 的一部分意味着一种尺寸并不适合所有尺寸,那么为什么不使用两个或更多 NoSQL 呢?一个列存储和一个图形数据库怎么样?
【讨论】:
【参考方案5】:您应该查看NetCDF 和HDF5。另外,考虑使用PyTables 来访问和提取数据。
【讨论】:
以上是关于大型数据存储(nosql 与否)的主要内容,如果未能解决你的问题,请参考以下文章