Jupyter ipython 内核在大文件加载时死机

Posted

技术标签:

【中文标题】Jupyter ipython 内核在大文件加载时死机【英文标题】:Jupyter ipython kernel dies on large file loading 【发布时间】:2021-06-04 23:44:41 【问题描述】:

我有一个大小约为 10gbs 的巨大二进制文件,我想将其加载到我的 Jupyter 笔记本上的 pandas 数据框中。我正在使用以下代码来创建数据框:

df = pd.DataFrame(np.fromfile('binary_file.dat', dtype = mydtype)) #the file has over 20 columns of dtype '<f8'

每次我运行这个命令,我的内核都会死掉。在调试时,我发现 np.fromfile 命令通过,但 pd.dataframe 命令是导致崩溃的命令。我在一个 4 核、16 GB 的 Ubuntu AWS 服务器上运行它。我试过设置

os.environ['KMP_DUPLICATE_LIB_OK'] = '真'

根据 *** 的回答,但没有帮助。如何在不使内核崩溃的情况下读取此文件?不增加服务器内存可以吗?

感谢您提供任何和所有帮助。谢谢

【问题讨论】:

【参考方案1】:

试试

df = pd.read_csv('.....\binary_file.dat' , sep="however you dat-file is separated",engine ='python') 

【讨论】:

我在二进制文件中没有任何分隔符。它是根据上面给定的dtype创建的

以上是关于Jupyter ipython 内核在大文件加载时死机的主要内容,如果未能解决你的问题,请参考以下文章

如何将 python3 内核添加到 jupyter (IPython)

sh 将ipython / jupyter内核添加到python环境中

在笔记本中组合jupyter / ipython内核

为啥我的 Jupyter notebook 运行的是 ipython 内核而不是 python3?分组问题

Jupyter和IPython

Ipython/Jupyter:等待 kernel_info 回复超时