ParserError:标记数据出错。 C错误:内存不足[关闭]
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ParserError:标记数据出错。 C错误:内存不足[关闭]相关的知识,希望对你有一定的参考价值。
“ ParserError:标记数据出错。C错误:内存不足”
[当我尝试读取一个大数据帧(5 gb)时,但是我只选择我感兴趣的列并设置必要的参数,即使这样也不起作用。我尝试使用chunks
参数。
df = pd.read_csv('file.csv', encoding = 'ISO-8859-1', usecols = names_columns, low_memory = False, nrows = 10000)
奇怪的是,当我放置参数"nrows = 1000"
时,它起作用。我运行的数据帧的行数比该行多,并且运行得很好,但是这给出了这个错误。
有人有什么建议吗?
- 无需弄乱
low_memory
。删除该参数选项。 - 指定dtypes(应该总是这样做)
考虑一个文件的示例,该文件的列名为user_id
。它包含1000万行,其中user_id
始终是数字。将dtype='user_id': int
添加到pd.read_csv()
调用中将使大熊猫在读取文件时知道这只是整数。
以上是关于ParserError:标记数据出错。 C错误:内存不足[关闭]的主要内容,如果未能解决你的问题,请参考以下文章
在 pandas 中读取 csv 文件时出错 [CParserError: 标记数据时出错。 C 错误:捕获缓冲区溢出 - 可能是格式错误的输入文件。]
pandas.io.common.CParserError:标记数据时出错。 C 错误:捕获缓冲区溢出 - 可能的输入文件格式错误
Python Pandas:标记数据时出错。 C 错误:读取 1GB CSV 文件时字符串中的 EOF 开始
JSON::ParserError - 416: '"#define RSAPrivateKey_dup GRPC_SHADOW_' 处出现意外标记
pandas读取csv文件时报错:ParserError: Error tokenizing data. C error