是否可以将打开的文件传递给pandas read_csv

Question

我的csv文件太大，无法一次全部读入内存（〜46 GB），并且我希望该数据的一部分可以放入内存。我能够读取文件的一部分，通过使用先前创建的过滤索引进行内部联接来过滤掉我不想要的内容，然后继续进行文件的下一部分，如下所示：

    with open('Filtered_By_Month/all_data.csv','r') as f:
        cols=np.array(f.readline().strip('
').split(','))#column names
        data=[]
        df=None
        for i in f:
            data.append(i.strip('
').split(',')
            if len(data)==1000000:
                df_sub=pd.DataFrame(data,columns=cols).set_index('KEY_')
                df_sub=df_sub.join(filtered_keys,how='inner')
                data=[]
                if df is None:
                    df=df_sub
                else:
                    df=pd.concat([df,df_sub])

这似乎很有效，除了它非常慢。一种替代方法是将pandas read_csv函数与nrows和skip_rows参数一起使用，但是，这也变得非常慢，因为每次我调用read_csv方法时，都会重新打开文件，并且光标位于第一行，因此我必须遍历所有行，直到我走过skip_rows。是否可以结合使用这两种方法，以便将文件传递给已经打开的read_csv，因此不需要使游标重新开始。

是否可以将打开的文件传递给pandas read_csv

狭窄的回答：是

更好的答案：不要

替代：并行框架