如何在 Python 数据框中分块读取数据?
Posted
技术标签:
【中文标题】如何在 Python 数据框中分块读取数据?【英文标题】:How to read data in chunks in Python dataframe? 【发布时间】:2017-01-16 00:12:37 【问题描述】:我想将文件 f 分块读取到数据帧中。这是我使用的代码的一部分。
for i in range(0, maxline, chunksize):
df = pandas.read_csv(f,sep=',', nrows=chunksize, skiprows=i)
df.to_sql(member, engine, if_exists='append',index= False, index_label=None, chunksize=chunksize)
我得到错误:
pandas.io.common.EmptyDataError: 没有要从文件中解析的列
该代码仅在块大小 >= maxline(即文件 f 中的总行数)时有效。但是,就我而言,块大小
请告知修复方法。
【问题讨论】:
【参考方案1】:我认为在read_csv
中使用参数chunksize
比较好。另外,将concat
与参数ignore_index
一起使用,因为需要避免index
中的重复:
chunksize = 5
TextFileReader = pd.read_csv(f, chunksize=chunksize)
df = pd.concat(TextFileReader, ignore_index=True)
见熊猫docs。
【讨论】:
谢谢!现在我得到 df 作为 TextFileReader。我的代码的下一步要求 df 是一个数据框。如何将 TextFileReader 转换为数据框? 我的实际数据大约是85GB。连接不会使数据帧变大吗?我想使用 chunksize 来读取和写入块。请指教。 是的,它会很大。也许你可以检查question。 对于像我这样的新手来说,这看起来很难。 "df = pandas.read_csv(f,sep=',', nrows=chunksize, skiprows=i)" 实际上给出了数据帧。不能对此进行修改以解决我的问题。更新了问题。谢谢! 我前段时间使用了你的解决方案,我得到了同样的错误。不幸的是,我从不使用to_sql
,所以我无法为您提供帮助。以上是关于如何在 Python 数据框中分块读取数据?的主要内容,如果未能解决你的问题,请参考以下文章
如何使用streamlit和python根据数据框中的字段数添加列