如何加载大量数据来训练机器学习模型? [关闭]

Posted

技术标签:

【中文标题】如何加载大量数据来训练机器学习模型? [关闭]【英文标题】:How to load large amount of data for training machine learning models? [closed] 【发布时间】:2021-10-18 16:07:52 【问题描述】:

该文件大约 2GB,包含大约 100 万条记录,有 200 多列。我尝试在整个晚上使用pd.read_csv() 创建数据帧,但内核冻结并且无法完成数据帧的创建。

如何加载大量数据集?

【问题讨论】:

您需要所有的列吗?如果没有,请将它们限制在 read_csv 中。您是否经常阅读相同的 csv?将其保存为更快的格式,例如镶木地板或羽毛或泡菜,以便以后更快地加载。或先将其放入某个数据库中。好的 ole sql 或其他一些大数据数据库。 csv 的一个问题是它的未知长度,因此它被读取然后转换为数据帧,使数据集的内存增加了一倍以上。 您能否分享您的代码,以便我们了解您是如何加载数据的? 【参考方案1】:

您可以使用“Pandas”,因为它将数据集保存在 RAM 中,它可以更快地执行特定计算(尝试创建数据框以管理您的数据)。您还可以使用“Dask”来执行分布式和并行计算。

【讨论】:

以上是关于如何加载大量数据来训练机器学习模型? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

机器学习之数据模型算法和服务

回顾 | Python 机器学习模型简介

开源的机器学习框架应当如何选择?

使用 Databricks+Mlflow 进行机器学习模型的训练和部署

运行经过训练的机器学习模型时出错

模型独立学习:多任务学习与迁移学习