在 Datalab 中使用大型数据集进行数据准备和描述
Posted
技术标签:
【中文标题】在 Datalab 中使用大型数据集进行数据准备和描述【英文标题】:Data preparation and description with large datasets in Datalab 【发布时间】:2018-06-27 11:08:10 【问题描述】:我目前正在处理一个 6 GB 的 csv 文件,以便从 Google Cloud Platform 中的数据中提取一些见解。我曾经使用 Cloud Datalab 来完成这项工作,因为我发现它是可视化数据的好工具。当我尝试将所有信息加载到数据框中时,问题就来了。当我在 VM 中运行 Datalab 时,我假设性能取决于该 VM 的功能。目前,每次我尝试加载数据帧中的寄存器时都会收到超时(即使尝试使用 4 个 CPU 和 15GB RAM 的 VM)。 是否有任何标准程序来清理和可视化数据(如果可能,使用数据框),在 GCP 中使用大型数据集?也许我只是选择了错误的选项。
任何帮助将不胜感激。
【问题讨论】:
嗨大卫,我想你可以发表你的评论作为你自己问题的答案。 ;) 这可能会使更多人受益。 【参考方案1】:作为更新,我找到了一种将 csv 文件加载到具有不同库而不是 pandas 的数据框中的方法(称为“Dask”:[link] (dask.pydata.org/en/latest))。实际上,我能够非常快速地进行一些基本操作。无论如何,我认为处理非常大的文件的解决方案是使用具有足够代表性的示例数据。
【讨论】:
以上是关于在 Datalab 中使用大型数据集进行数据准备和描述的主要内容,如果未能解决你的问题,请参考以下文章
在大型数据集(~3M 条目)上使用 PostgreSQL 进行特征工程