ValueError:在 defaultdict 上使用 sklearn 时样本数不一致
Posted
技术标签:
【中文标题】ValueError:在 defaultdict 上使用 sklearn 时样本数不一致【英文标题】:ValueError: Inconsistent number of samples when using sklearn on defaultdict 【发布时间】:2016-11-14 03:43:10 【问题描述】:我正在读取 .csv 文件中的列作为 sklearn 朴素贝叶斯拟合的输入。但是,我遇到了这些错误和警告:
DeprecationWarning:将一维数组作为数据传递在 0.17 中已弃用,并将在 0.19 中引发 ValueError。如果您的数据具有单个特征,则使用 X.reshape(-1, 1) 重塑您的数据,如果它包含单个样本,则使用 X.reshape(1, -1)。
和
ValueError:发现样本数量不一致的数组:[1 10509]
这是我的代码:
clf = GaussianNB()
columns = defaultdict(list)
with open('file.CSV', 'rb') as f:
reader = csv.reader(f)
for row in reader:
for(i, v) in enumerate(row):
columns[i].append(v)
clf.fit(columns[9], columns[10])
请注意,len(columns[9]) 和 len(columns[10]) 都是 10509
正如警告所暗示的,我尝试了许多不同的 reshape()、flatten()、ravel() 组合,还尝试使用 numpy 数组,但似乎没有任何效果。
有什么建议吗?似乎大多数人都在使用除 defaultdict 之外的某种数据结构,但我不确定如何使用其他数据结构从 .csv 中读取
【问题讨论】:
【参考方案1】:我找到了解决问题的方法。似乎问题不在于塑造数据结构,而在于将其设置为数字类型而不是字符串类型。
x = np.array(columns[9]).reshape(len(columns[10]), 1).astype(np.float)
y = np.array(columns[10])
clf.fit(x, y)
【讨论】:
以上是关于ValueError:在 defaultdict 上使用 sklearn 时样本数不一致的主要内容,如果未能解决你的问题,请参考以下文章