如何加载大量数据来训练机器学习模型? [关闭]
Posted
技术标签:
【中文标题】如何加载大量数据来训练机器学习模型? [关闭]【英文标题】:How to load large amount of data for training machine learning models? [closed] 【发布时间】:2021-10-18 16:07:52 【问题描述】:该文件大约 2GB,包含大约 100 万条记录,有 200 多列。我尝试在整个晚上使用pd.read_csv()
创建数据帧,但内核冻结并且无法完成数据帧的创建。
如何加载大量数据集?
【问题讨论】:
您需要所有的列吗?如果没有,请将它们限制在 read_csv 中。您是否经常阅读相同的 csv?将其保存为更快的格式,例如镶木地板或羽毛或泡菜,以便以后更快地加载。或先将其放入某个数据库中。好的 ole sql 或其他一些大数据数据库。 csv 的一个问题是它的未知长度,因此它被读取然后转换为数据帧,使数据集的内存增加了一倍以上。 您能否分享您的代码,以便我们了解您是如何加载数据的? 【参考方案1】:您可以使用“Pandas”,因为它将数据集保存在 RAM 中,它可以更快地执行特定计算(尝试创建数据框以管理您的数据)。您还可以使用“Dask”来执行分布式和并行计算。
【讨论】:
以上是关于如何加载大量数据来训练机器学习模型? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章