机器学习笔记——K近邻法
Posted Lyndon_zheng
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习笔记——K近邻法相关的知识,希望对你有一定的参考价值。
K-nearest neighbor(KNN)
k
近邻法一种基本的分类与回归方法,原理和实现都比较直观。其输入为样本的特征向量,输出为样本的类别,可以进行多类别分类。k近邻法是通过统计与未知样本最近点的训练样本的类别来投票决定未知样本的类别,不具有显式的学习过程。
1.k 近邻模型
距离度量
特征空间中两个样本的距离是两个样本的相似程度的反映。在
k
近邻法中常用的距离度量包括:
(1)Minkowski Distacne(闵可夫斯基距离)
定义两个变量
当 p =1时,称为曼哈顿距离(Manhattan distance)
当 p =2时,是常用的欧式距离(Euclidean distance)
当 p=∞ 时,是常用的切比雪夫距离(chebyshev distance)
L∞(xi,xj)=maxl|xni−xnj|
上述距离在不同特征中存在一定的缺点,比如特征维度中不同的单位,如果用绝对值会导致比重不一,因此不同的特征都需要归一化,即统一为相对值。
(2)马氏距离(Mahalanobis distance)
定义两个变量 xi,xj∈χ,xi=(x1i,x2i,…,xni) , xj=(x1j机器学习入门之K近邻法