用于拟合 scikit 邻居/半径分类的预计算矩阵
Posted
技术标签:
【中文标题】用于拟合 scikit 邻居/半径分类的预计算矩阵【英文标题】:Precomputed matrix for fitting with scikit neighbors/radius classification 【发布时间】:2017-04-21 06:22:48 【问题描述】:我使用 Scikit-Learn 的最近邻/半径分类和预先计算的指标。这意味着,我将成对距离的 n_samples_train x n_samples_train 矩阵传递给分类器的拟合方法。
现在我想知道为什么必须这样做。用 knn 学习只是意味着“存储样本”,但是距离的计算应该只在稍后进行,在泛化过程中(在那个步骤中,我当然会计算我的训练样本和我的测试样本之间的距离矩阵,所以大小为 n_samples_train x n_samples_test 的矩阵。
以 SVM 为例,我将一个预先计算的矩阵(Gramian,一个 similarity 矩阵)传递给 smv.SVC 对象的 fit 方法。然后进行优化,找到支持向量等等。在那里,该矩阵在训练期间是绝对必要的。
但我看不出为什么需要预先计算的矩阵来拟合邻居/半径分类。
有人可以给我一个相关的提示吗?
我很想跳过使用 scikit learn 计算 knn 的训练矩阵。
最好的问候,谢谢。 :-)
【问题讨论】:
另外,我想知道这(***)是否适合我的问题。是否应该将问题迁移到交叉验证等? 【参考方案1】:这是旧的,但我在搜索相关问题时偶然发现它。
本质上,这是性能问题。以您一次拟合 k 个邻居/半径分类器然后使用它对多个不同的测试点集进行分类的情况为例。如果内核矩阵没有预先计算,那么每次调用 fit() 时都必须计算内核矩阵。这些分类器的实现方式利用了您正在使用正(半)定函数这一事实,并且可以使用它来加速最近邻/半径使用 kd-tree 或球树搜索新点,它构建了一个结构,该结构限制了到每个子树之外的点的距离。对于 n 个样本和 k 个邻居(至少对于球树),可以在 iirc O(k*log(n)) 时间内完成这种结构的构建。因此,通过提前做一些工作,可以大大加快新点的分类速度。
要使用实用的解决方案回答您的问题,如果您想使用自定义指标,则无需传递预先计算的距离矩阵。如果您传递一个可调用作为度量,距离矩阵仍将在一定程度上预先计算 - 但它会在拟合过程中透明地发生,并且实际上应该比您通过蛮力计算所有样本对之间的距离更有效自己(注意,如果您的输入稀疏,分类器仍将使用蛮力。它仍将使用多个核心,因此可能比您自己做更好,但它的行为会有所不同。)
所以总结一下:你是绝对正确的,预先计算的距离矩阵对于拟合一般的 k 最近邻分类器并不是绝对必要的。然而,通过预先计算它——无论你是这样做还是传递一个可调用对象——随后的分类效率要高得多。 Sklearn 显然选择预先计算自定义指标 - 可能是因为使用 python 函数 n*(n-1)/2 次的开销使得该路线比使用高度优化的内置指标慢得多,其中许多指标部分或完全在 cython 中实现。但是您不需要在拟合之前将其作为显式步骤进行计算。
【讨论】:
以上是关于用于拟合 scikit 邻居/半径分类的预计算矩阵的主要内容,如果未能解决你的问题,请参考以下文章
R语言glmnet拟合岭回归模型实战:岭回归模型的模型系数(ridge regression coefficients)及可视化岭回归模型分类评估计算(混淆矩阵accuracyDeviance)
R语言glm拟合logistic回归模型:输出logistic回归的summary信息可视化logistic回归模型的系数logistic回归模型分类评估计算(混淆矩阵accuracy偏差)