用numpy处理大数据遇到的问题

Posted bitrees

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用numpy处理大数据遇到的问题相关的知识,希望对你有一定的参考价值。

在使用numpy读取一个四百多万行数据的.csv文件时抛出了如下异常:

numpy.core._exceptions.MemoryError: Unable to allocate array with shape (4566386, 23) and data type <U20

以下是我的源代码:

import numpy as np
import matplotlib.pyplot as mp
import sklearn.ensemble as se
import sklearn.metrics as sm
headers = None
data = []
with open (/home/tarena/桌面/i-80.csv,r) as f:
    for i,line in enumerate( f.readlines()):
        if i==0:
            headers=line.split(,)[2:]
        else:
            data.append(line.split(,)[2:])
headers = np.array(data)
data = np.array(data)
print(headers.shape)
print(data.shape)

以下是运行结果:

Traceback (most recent call last):
  File "/home/tarena/桌面/read_forest.py", line 13, in <module>
    headers = np.array(data)
numpy.core._exceptions.MemoryError: Unable to allocate array with shape (4566386, 23) and data type <U20

Process finished with exit code 1

虽然是报错,但是还是拿到了结果。

各位大佬们,有没有解决方案?

以上是关于用numpy处理大数据遇到的问题的主要内容,如果未能解决你的问题,请参考以下文章

numpy.memmap 无法处理非常大的数据

使用 numpy.load 时遇到问题

大数据可视化中numpy库都有哪些作用?

大数据三遇到的问题

在Scholarspace可视化交互式分析中遇到的几个问题及处理方法

通过 JPype 和 numpy 将 Java 类型转换为 Python