pandas 读取大文件 read_table C-engine CParserError: Error tokenizing data

Posted cbugs

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas 读取大文件 read_table C-engine CParserError: Error tokenizing data相关的知识,希望对你有一定的参考价值。

解决办法:

pd_data = pd.read_table(comment_file,header=None,encoding=utf-8, engine=python)

官网解析:

    engine : {‘c’, ‘python’}, optional

Parser engine to use. The C engine is faster while the python engine is currently more feature-complete.

 

1、

iterator : boolean, default False

Return TextFileReader object for iteration or getting chunks with get_chunk().

或者通过chunk 获取

pd_data = pd.read_table(comment_file,header=None,encoding=‘utf-8‘,iterator=True)
# print(pd_data)
# pd_data_t = pd.read_table(comment_file,header=None,encoding=‘utf-8‘, engine=‘python‘)
# return;
loop = True
chunk_data = []
chunk_size = 1024
while loop:
try:
pd_data_tmp = pd_data.get_chunk(chunk_size)
chunk_data.append(pd_data_tmp)
except StopIteration:
loop = False
df = pd.concat(chunk_data,ignore_index=True)

 


















以上是关于pandas 读取大文件 read_table C-engine CParserError: Error tokenizing data的主要内容,如果未能解决你的问题,请参考以下文章

Pandas —— 数据读取

python pandas 中文件的读写——read_csv()读取文件

pandas datetime 怎么提取月份

pandas读写结构化数据(read_csv,read_table, read_excel, read_html, read_sql)

第四节 pandas 数据加载

pandas—总结 数据读写