Jupyter ipython 内核在大文件加载时死机
Posted
技术标签:
【中文标题】Jupyter ipython 内核在大文件加载时死机【英文标题】:Jupyter ipython kernel dies on large file loading 【发布时间】:2021-06-04 23:44:41 【问题描述】:我有一个大小约为 10gbs 的巨大二进制文件,我想将其加载到我的 Jupyter 笔记本上的 pandas 数据框中。我正在使用以下代码来创建数据框:
df = pd.DataFrame(np.fromfile('binary_file.dat', dtype = mydtype)) #the file has over 20 columns of dtype '<f8'
每次我运行这个命令,我的内核都会死掉。在调试时,我发现 np.fromfile 命令通过,但 pd.dataframe 命令是导致崩溃的命令。我在一个 4 核、16 GB 的 Ubuntu AWS 服务器上运行它。我试过设置
os.environ['KMP_DUPLICATE_LIB_OK'] = '真'
根据 *** 的回答,但没有帮助。如何在不使内核崩溃的情况下读取此文件?不增加服务器内存可以吗?
感谢您提供任何和所有帮助。谢谢
【问题讨论】:
【参考方案1】:试试
df = pd.read_csv('.....\binary_file.dat' , sep="however you dat-file is separated",engine ='python')
【讨论】:
我在二进制文件中没有任何分隔符。它是根据上面给定的dtype创建的以上是关于Jupyter ipython 内核在大文件加载时死机的主要内容,如果未能解决你的问题,请参考以下文章
如何将 python3 内核添加到 jupyter (IPython)
sh 将ipython / jupyter内核添加到python环境中