Pandas处理超大规模数据
Posted geeksongs
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pandas处理超大规模数据相关的知识,希望对你有一定的参考价值。
对于超大规模的csv文件,我们无法一下将其读入内存当中,只能分块一部分一部分的进行读取;
首先进行如下操作:
import pandas as pd
reader = pd.read_csv(‘data/servicelogs‘, iterator=True)
分块,每一块是一个chunk,之后将chunk进行拼接;
loop = True
chunkSize = 100000
chunks = []
while loop:
try:
chunk = reader.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print "Iteration is stopped."
df = pd.concat(chunks, ignore_index=True)
以上是关于Pandas处理超大规模数据的主要内容,如果未能解决你的问题,请参考以下文章
实操 | 内存占用减少高达90%,还不用升级硬件?没错,这篇文章教你妙用Pandas轻松处理大规模数据
基于MaxCompute分布式Python能力的大规模数据科学分析