在 python 中处理大型数据集的最佳方法

Posted

技术标签:

【中文标题】在 python 中处理大型数据集的最佳方法【英文标题】:best way to work with large dataset in python 【发布时间】:2016-09-28 01:33:03 【问题描述】:

我正在处理一个大型金融数据集(目前为 15gb,但以后将达到 200gb)。使用它的最佳方式是什么。特别是,我想做一些统计测试并使用毫秒数据生成一些图表。到目前为止,我已经使用 sqlite3 来轻松解决问题,但它似乎无法处理文件的大小。我正在使用 PyCharm(不确定是否有帮助)

【问题讨论】:

15Gb 集的 Pandas,否则 s3 存储桶或 hdfs 集群和 PySpark 可能是最好的 【参考方案1】:

如果你想管理大量数据,sqlite 不是一个好的选择(实际上我不会将 sqlite 用于原型设计或运行测试之外的其他事情)。

您可以尝试使用亚马逊 RDS 来存储数据库 http://aws.amazon.com/es/rds/,并在亚马逊提供的数据库引擎之一中进行选择。

至于使用 Python,我认为您应该让 DB 引擎处理请求并使用 python 生成图形。

【讨论】:

什么是数据库引擎?你能提供一些名字/例子吗? 例如PostgreSQL、mysql、Oracle、Microsoft SQL Server等

以上是关于在 python 中处理大型数据集的最佳方法的主要内容,如果未能解决你的问题,请参考以下文章

大型数据集的最佳数据库引擎

(预)处理存储在 json 中的大型数据集的最有效方法是啥?

基于多个字段搜索大型数据集的有效方法

计算大型数据集的python树高度

大型数据集的数据库设计

R中用于大型复杂调查数据集的方法?