量化课堂kd 树算法之详细篇

Posted 2020-09-14 Flowersea

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了量化课堂kd 树算法之详细篇相关的知识，希望对你有一定的参考价值。

导语：在上一篇《kd 树算法之思路篇》中，我们介绍了如何用二叉树格式记录空间内的距离，并以其为依据进行高效的索引。在本篇文章中，我们将详细介绍 kd 树的构造以及 kd 树上的 kNN 算法。

作者：肖睿
编辑：宏观经济算命师

本文由JoinQuant量化课堂推出，本文的难度属于进阶（下），深度为 level-1

阅读本文前请掌握 kNN（level-1）的知识。

kd 树的结构

kd树是一个二叉树结构，它的每一个节点记载了【特征坐标，切分轴，指向左枝的指针，指向右枝的指针】。
其中，特征坐标是线性空间

给定一个数据样本集

构造 kd 树的例子

上面抽象的定义和算法确实是很不好理解，举一个例子会清楚很多。首先随机在

首先先沿

并且按照该点的x坐标将空间进行切分，所有

在下一步中

空间的切分如下
技术分享

下一步中

最后每一部分都只剩一个点，将他们记在最底部的节点中。因为不再有未被记录的点，所以不再进行切分。
技术分享

就此完成了 kd 树的构造。

kd 树上的 kNN 算法

给定一个构建于一个样本集的 kd 树，下面的算法可以寻找距离某个点

零、设

啊呃… 被这算法噎住了，赶紧喝一口下面的例子

设我们想查询的点为

首先执行 (一)，我们按照切分找到最底部节点。首先，我们在顶部开始
技术分享

和这个节点的

这次对比

这个节点只有一个子枝，就不需要对比了。由此找到了最底部的节点

在二维图上是
技术分享

此时我们执行 (二)。将当前结点标记为访问过，并记录下

然后执行 (三)，嗯，不是最顶端节点。好，执行 (a)，我爬。上面的是

执行 (1)，因为我们记录下的点只有一个，小于

(1) 说，由于还是不够三个点，于是将当前点也记录下，有

(2) 又发现，当前节点有其他的分枝，并且经计算得出

因此，在分割线的另一端可能有更近的点。于是我们在当前结点的另一个分枝从头执行 (一)。好，我们在红线这里：
技术分享

要用

经计算，

然后 (三) 判断出不是顶端节点，呼出 (a)，爬。
技术分享

(1) 出来一算，这个节点与

因此，我们用这个新的节点替代

然后 (2) 又来了，我们比对

这个距离小于

计算距离发现这个点离

(三) 发现不是顶点，所以呼出 (a)。我们向上爬，
技术分享

这个是已经访问过的了，所以再来（a），
技术分享

好，（a）再爬，
技术分享

啊！到顶点了。所以完了吗？当然不，还没轮到 (三) 呢。现在是 (1) 的回合。

我们进行计算比对发现顶端节点与p的距离比L还要更远，因此不进行更新。
技术分享

然后是 (2)，计算

因此也不需要检查另一个分枝。

然后执行 (三)，判断当前节点是顶点，因此计算完成！输出距离

结语

kd 树的 kNN 算法节约了很大的计算量（虽然这点在少量数据上很难体现），但在理解上偏于复杂，希望本篇中的实例可以让读者清晰地理解这个算法。喜欢动手的读者可以尝试自己用代码实现 kd 树算法，但也可以用现成的机器学习包 scikit-learn 来进行计算。量化课堂的下一篇文章就将讲解如何用 scikit-learn 进行 kNN 分类。

本文由JoinQuant量化课堂推出，版权归JoinQuant所有，商业转载请联系我们获得授权，非商业转载请注明出处。

文章更迭记录：
v1.2，2016-11-01，修正算法，感谢 nemo1982 指出
v1.1，2016-09-14，修正错字，感谢 nico 指出
v1.0，2016-09-12，文章上线

以上是关于量化课堂kd 树算法之详细篇的主要内容，如果未能解决你的问题，请参考以下文章

非常好理解的KNN算法示例

特征匹配SIFT原理之KD树+BBF算法解析

k近邻&kd树

kd树故障检测基于KDtree的电路故障检测算法的MATLAB仿真

02-17 kd树