Python Pandas:标记数据时出错。 C 错误:读取 1GB CSV 文件时字符串中的 EOF 开始

Posted

技术标签:

【中文标题】Python Pandas:标记数据时出错。 C 错误:读取 1GB CSV 文件时字符串中的 EOF 开始【英文标题】:Python Pandas: Error tokenizing data. C error: EOF inside string starting when reading 1GB CSV file 【发布时间】:2018-03-31 06:14:56 【问题描述】:

我正在以 10,000 行的块读取一个 1 GB 的 CSV 文件。该文件有 1106012 行和 171 列,其他较小的文件没有显示任何错误并成功完成,但是当我读取这个 1 GB 文件时,它每次都显示错误,正好是第 1106011 行,这是文件的倒数第二行,我可以手动删除该行,但这不是解决方案,因为我有数百个相同大小的其他文件,我无法手动修复所有行。谁能帮帮我。

def extract_csv_to_sql(input_file_name, header_row, size_of_chunk, eachRow):

        df = pd.read_csv(input_file_name,
                         header=None,
                         nrows=size_of_chunk,
                         skiprows=eachRow,
                         low_memory=False,
                         error_bad_lines=False,
                         sep=',')
                         # engine='python'
                         # quoting=csv.QUOTE_NONE
                         # encoding='utf-8'

        df.columns = header_row
        df = df.drop_duplicates(keep='first')
        df = df.apply(lambda x: x.astype(str).str.lower())

        return df

然后我在一个循环中调用这个函数并且工作得很好。

huge_chunk_return = extract_csv_to_sql(huge_input_filename, huge_header_row, the_size_of_chunk_H, each_Row_H)

我读过这个Pandas ParserError EOF character when reading multiple csv files to HDF5、这个read_csv() & EOF character in string cause parsing issue和这个https://github.com/pandas-dev/pandas/issues/11654等等,并尝试包含read_csv参数,例如

engine='python'

quoting=csv.QUOTE_NONE // 挂起,甚至 python shell,不知道为什么

encoding='utf-8'

但没有一个成功,它仍然抛出以下错误

错误:

Traceback (most recent call last):
  File "C:\Users\WCan\Desktop\wcan_new_python\pandas_test_3.py", line 115, in <module>
    huge_chunk_return = extract_csv_to_sql(huge_input_filename, huge_header_row, the_size_of_chunk_H, each_Row_H)
  File "C:\Users\WCan\Desktop\wcan_new_python\pandas_test_3.py", line 24, in extract_csv_to_sql
    sep=',')
  File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 655, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 411, in _read
    data = parser.read(nrows)
  File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 1005, in read
    ret = self._engine.read(nrows)
  File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 1748, in read
    data = self._reader.read(nrows)
  File "pandas\_libs\parsers.pyx", line 893, in pandas._libs.parsers.TextReader.read (pandas\_libs\parsers.c:10885)
  File "pandas\_libs\parsers.pyx", line 966, in pandas._libs.parsers.TextReader._read_rows (pandas\_libs\parsers.c:11884)
  File "pandas\_libs\parsers.pyx", line 953, in pandas._libs.parsers.TextReader._tokenize_rows (pandas\_libs\parsers.c:11755)
  File "pandas\_libs\parsers.pyx", line 2184, in pandas._libs.parsers.raise_parser_error (pandas\_libs\parsers.c:28765)
pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line 1106011
>>> 

【问题讨论】:

你能告诉我们一个有效的行和无效的行(你删除的倒数第二个) 我无法在此处粘贴它有 171 列并且看起来像正常行但是当 pandas 读取它时,它会在文件的倒数第二行引发上述错误。 【参考方案1】:

如果你在 linux 下,尝试删除所有不可打印的字符。 尝试在此操作后加载您的文件。

tr -dc '[:print:]\n' < file > newfile

【讨论】:

我在windows下 我还能那样做吗? ***.com/questions/92438/…(你可以试试这个解决方案) 如何在 pandas 数据框和 Windows 而非 linux 上做到这一点? 尝试安装UnxTools sourceforge.net/projects/unxutils/?SetFreedomCookie【参考方案2】:

我询问了很多解决方案,其中一些有效,但它影响了使用这个的计算,它会跳过导致错误的行:

pd.read_csv(file,engine='python', error_bad_lines=False) 

#engine='python' 提供更好的输出

【讨论】:

这也对我有用。这是另一个同意这个答案的资源:@​​987654321@

以上是关于Python Pandas:标记数据时出错。 C 错误:读取 1GB CSV 文件时字符串中的 EOF 开始的主要内容,如果未能解决你的问题,请参考以下文章

pandas.io.common.CParserError:标记数据时出错。 C 错误:捕获缓冲区溢出 - 可能的输入文件格式错误

在 Pandas read_csv 期间标记数据时出错。如何真正看到坏线?

Python 3 Pandas 错误:pandas.parser.CParserError:错误标记数据。 C 错误:第 5 行中应有 11 个字段,但看到了 13

Python pandas,使用 .str.contains 搜索数据框列的子字符串时出错

使用 Leaflet、folium 和 pandas 使用 python 绘制地理编码数据(来自 CSV)时出错

ValueError:没有足够的值来解包(预期为 2,得到 1)当试图在 python 中解包 dict 以使用 pandas 进行数据标记时