Pandas处理超大规模数据

Posted geeksongs

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pandas处理超大规模数据相关的知识,希望对你有一定的参考价值。

对于超大规模的csv文件,我们无法一下将其读入内存当中,只能分块一部分一部分的进行读取;

  首先进行如下操作:

import pandas as pd
reader = pd.read_csv(‘data/servicelogs‘, iterator=True)

分块,每一块是一个chunk,之后将chunk进行拼接;
loop = True
chunkSize = 100000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print "Iteration is stopped."
df = pd.concat(chunks, ignore_index=True)

以上是关于Pandas处理超大规模数据的主要内容,如果未能解决你的问题,请参考以下文章

实操 | 内存占用减少高达90%,还不用升级硬件?没错,这篇文章教你妙用Pandas轻松处理大规模数据

基于MaxCompute分布式Python能力的大规模数据科学分析

2000字详解 当Pandas遇上超大规模的数据集该如何处理呢?

pandas(一)基本数据结构

pandas 怎么处理表格中的空值

pyspark玩转大数据