如何在 Python 数据框中分块读取数据?

Posted

技术标签:

【中文标题】如何在 Python 数据框中分块读取数据?【英文标题】:How to read data in chunks in Python dataframe? 【发布时间】:2017-01-16 00:12:37 【问题描述】:

我想将文件 f 分块读取到数据帧中。这是我使用的代码的一部分。

for i in range(0, maxline, chunksize):
df = pandas.read_csv(f,sep=',', nrows=chunksize, skiprows=i)
df.to_sql(member, engine, if_exists='append',index= False, index_label=None, chunksize=chunksize)

我得到错误:

pandas.io.common.EmptyDataError: 没有要从文件中解析的列

该代码仅在块大小 >= maxline(即文件 f 中的总行数)时有效。但是,就我而言,块大小

请告知修复方法。

【问题讨论】:

【参考方案1】:

我认为在read_csv 中使用参数chunksize 比较好。另外,将concat 与参数ignore_index 一起使用,因为需要避免index 中的重复:

chunksize = 5
TextFileReader = pd.read_csv(f, chunksize=chunksize)

df = pd.concat(TextFileReader, ignore_index=True)

见熊猫docs。

【讨论】:

谢谢!现在我得到 df 作为 TextFileReader。我的代码的下一步要求 df 是一个数据框。如何将 TextFileReader 转换为数据框? 我的实际数据大约是85GB。连接不会使数据帧变大吗?我想使用 chunksize 来读取和写入块。请指教。 是的,它会很大。也许你可以检查question。 对于像我这样的新手来说,这看起来很难。 "df = pandas.read_csv(f,sep=',', nrows=chunksize, skiprows=i)" 实际上给出了数据帧。不能对此进行修改以解决我的问题。更新了问题。谢谢! 我前段时间使用了你的解决方案,我得到了同样的错误。不幸的是,我从不使用to_sql,所以我无法为您提供帮助。

以上是关于如何在 Python 数据框中分块读取数据?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用streamlit和python根据数据框中的字段数添加列

如何在熊猫数据框中读取嵌套的 json 文件?

如何在 PyCharm 的 pandas 数据框中从 BigQuery 读取数据

Python:分块读取大文件

Python:分块读取大文件

从源码看Spark读取Hive表数据小文件和分块的问题