scikit learn 在一定数量的数据上崩溃
Posted
技术标签:
【中文标题】scikit learn 在一定数量的数据上崩溃【英文标题】:sci-kit learn crashing on certain amounts of data 【发布时间】:2014-06-14 17:09:54 【问题描述】:我正在尝试处理一个包含 71,000 行 200 列浮点数的 numpy 数组,当我超过 5853 行时,我尝试的两个 sci-kit 学习模型都会给出不同的错误。我尝试删除有问题的行,但它仍然失败。 sci-kit learn 不能处理这么多数据,还是别的什么? X 是列表列表的 numpy 数组。
KNN:
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
错误:
File "knn.py", line 48, in <module>
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
File "/usr/local/lib/python2.7/dist-packages/sklearn/neighbors/base.py", line 642, in fit
return self._fit(X)
File "/usr/local/lib/python2.7/dist-packages/sklearn/neighbors/base.py", line 180, in _fit
raise ValueError("data type not understood")
ValueError: 数据类型不理解
K 均值:
kmeans_model = KMeans(n_clusters=2, random_state=1).fit(X)
错误:
Traceback (most recent call last):
File "knn.py", line 48, in <module>
kmeans_model = KMeans(n_clusters=2, random_state=1).fit(X)
File "/usr/local/lib/python2.7/dist-packages/sklearn/cluster/k_means_.py", line 702, in fit
X = self._check_fit_data(X)
File "/usr/local/lib/python2.7/dist-packages/sklearn/cluster/k_means_.py", line 668, in _check_fit_data
X = atleast2d_or_csr(X, dtype=np.float64)
File "/usr/local/lib/python2.7/dist-packages/sklearn/utils/validation.py", line 134, in atleast2d_or_csr
"tocsr", force_all_finite)
File "/usr/local/lib/python2.7/dist-packages/sklearn/utils/validation.py", line 111, in _atleast2d_or_sparse
force_all_finite=force_all_finite)
File "/usr/local/lib/python2.7/dist-packages/sklearn/utils/validation.py", line 91, in array2d
X_2d = np.asarray(np.atleast_2d(X), dtype=dtype, order=order)
File "/usr/local/lib/python2.7/dist-packages/numpy/core/numeric.py", line 235, in asarray
return array(a, dtype, copy=False, order=order)
ValueError: setting an array element with a sequence.
【问题讨论】:
使用熊猫。它将错误的类型转换为可用的东西,或者忽略它。 “X 是列表列表的 numpy 数组”。这听起来不太对劲。你能发一小段X
吗?
我已经通过 Numpy 代码更仔细地追踪了您的回溯,二维数组或一维数组列表应该没有任何问题。 X
到底是什么?
【参考方案1】:
请检查您的矩阵X
的dtype
,例如通过输入X.dtype
。如果是object
或dtype('O')
,则将X
的行长度写入数组:
lengths = [len(line) for line in X]
然后通过调用查看所有行的长度是否相同
np.unique(lengths)
如果输出中有多个数字,则您的行长不同,例如从第 5853 行开始,但可能并非一直如此。
Numpy 数据数组仅在所有行的长度相同时才有用(如果不是,它们会继续工作,但不会按照您的预期进行。)。您应该检查一下是什么原因造成的,纠正它,然后返回knn
。
以下是行长不同时会发生什么情况的示例:
import numpy as np
rng = np.random.RandomState(42)
X = rng.randn(100, 20)
# now remove one element from the 56th line
X = list(X)
X[55] = X[55][:-1]
# turn it back into an ndarray
X = np.array(X)
# check the dtype
print X.dtype # returns dtype('O')
from sklearn.neighbors import NearestNeighbors
nbrs = NearestNeighbors()
nbrs.fit(X) # raises your first error
from sklearn.cluster import KMeans
kmeans = KMeans()
kmeans.fit(X) # raises your second error
【讨论】:
您好,有一些聚合行导致数组行长度不一致。我之前无法找到它们,但你的方法允许它。算法现在可以工作了。谢谢!以上是关于scikit learn 在一定数量的数据上崩溃的主要内容,如果未能解决你的问题,请参考以下文章