《统计学习方法》笔记--K近邻
Posted 兜里有糖心里不慌
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《统计学习方法》笔记--K近邻相关的知识,希望对你有一定的参考价值。
《统计学习方法》第三章–K近邻
K近邻概述
K近邻算法是一种基本分类与回归模型,该算法假定给定一个实例已经标定的训练数据集,在分类或回归时对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决的方式进行预测,属于判别模型。K值得选择,距离度量,分类决策规则是K近邻算法的三个基本要素。
K近邻算法
输入:训练数据集 T = ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . ( x N , y N ) ; T=\\(x_1,y_1),(x_2,y_2)...(x_N,y_N)\\; T=(x1,y1),(x2,y2)...(xN,yN);其中 x i ∈ χ ⊆ R n x_i \\in \\chi \\subseteq R^n xi∈χ⊆Rn为实例的特征向量 y i ∈ γ = c 1 , c 2 , . . . c K y_i \\in \\gamma=\\ c_1,c_2,...c_K\\ yi∈γ=c1,c2,...cK为实例的类别 i = 1 , 2 , . . . N i=1,2,...N i=1,2,...N;实例特征向量 x x x
输出:实例 x x x所属的类 y y y
(1) 根据给定的距离度量,在给定训练集 T T T中找到与 x x x最近邻的K个点,涵盖这K个点的 x x x的邻域记做 N k ( x ) N_k(x) Nk(x)
(2) 在 N k ( x ) N_k(x) Nk(x)中根据分类决策规则(如多数表决)决定 x x x的类别 y y y
y = arg m a x c j ∑ x i ∈ N k ( x ) I ( y i = c j ) , i = 1 , 2 , . . . , N ; j = 1 , 2 , 3 , . . . , K y=\\arg max_c_j\\sum_x_i\\in N_k(x)I(y_i=c_j),i=1,2,...,N;j=1,2,3,...,K y=argmaxcjxi∈Nk(x)∑I(yi=cj),i=1,2,...,N;j=1,2,3,...,K其中 I I I为指示函数,即当 y i = c j y_i=c_j yi=cj时 I I I为 1 1 1,否则 I I I为 0 0 0
注: K近邻模型的特殊情况是当K=1时,即对于输入实例,选取最训练集中与其最近的点作为输入实例的类别。
距离度量
在K近邻算法中需要通过距离这一度量单位来评价两个实例点之间的距离,如何选取合适的距离度量方式依据于具体的应用背景。
K近邻中关于距离的一般定义为:设特征空间 χ \\chi χ是 n n n维实数向量空间 R n , x i , x j ∈ χ , x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T , x j = ( x j ( 1 ) , x j ( 2 ) , . . . , x j ( n ) ) T , x i , x j R^n,x_i,x_j\\in \\chi,x_i=(x_i^(1),x_i^(2),...,x_i^(n))^T,x_j=(x_j^(1),x_j^(2),...,x_j^(n))^T,x_i,x_j Rn,xi,xj∈χ,xi=(xi(1),xi(2),...,xi(n))T,xj=(xj(1),xj(2),...,xj(n))T,xi,xj的 L p L_p Lp距离定义为: L p ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 p , p ≥ 1 L_p(x_i,x_j)=(\\sum_l=1^n|x_i^(l)-x_j^(l)|^p)^\\frac1p,p\\ge 1 Lp(xi,xj)=(l=1∑n∣xi(l)−xj(l)∣p)p1,p≥1
当 p = 2 p=2 p=2时,称为欧氏距离,即 L 2 ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ 2 ) 1 2 L_2(x_i,x_j)=(\\sum_l=1^n|x_i^(l)-x_j^(l)|^2)^\\frac12 L2(xi,xj)=(∑统计学习方法 (第3章)K近邻法 学习笔记