在 python 中处理大型数据集的最佳方法
Posted
技术标签:
【中文标题】在 python 中处理大型数据集的最佳方法【英文标题】:best way to work with large dataset in python 【发布时间】:2016-09-28 01:33:03 【问题描述】:我正在处理一个大型金融数据集(目前为 15gb,但以后将达到 200gb)。使用它的最佳方式是什么。特别是,我想做一些统计测试并使用毫秒数据生成一些图表。到目前为止,我已经使用 sqlite3 来轻松解决问题,但它似乎无法处理文件的大小。我正在使用 PyCharm(不确定是否有帮助)
【问题讨论】:
15Gb 集的 Pandas,否则 s3 存储桶或 hdfs 集群和 PySpark 可能是最好的 【参考方案1】:如果你想管理大量数据,sqlite 不是一个好的选择(实际上我不会将 sqlite 用于原型设计或运行测试之外的其他事情)。
您可以尝试使用亚马逊 RDS 来存储数据库 http://aws.amazon.com/es/rds/,并在亚马逊提供的数据库引擎之一中进行选择。
至于使用 Python,我认为您应该让 DB 引擎处理请求并使用 python 生成图形。
【讨论】:
什么是数据库引擎?你能提供一些名字/例子吗? 例如PostgreSQL、mysql、Oracle、Microsoft SQL Server等以上是关于在 python 中处理大型数据集的最佳方法的主要内容,如果未能解决你的问题,请参考以下文章