机器学习聚类算法中的距离度量有哪些及公式表示?
Posted Better Bench
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习聚类算法中的距离度量有哪些及公式表示?相关的知识,希望对你有一定的参考价值。
聚类算法中的距离度量有哪些?
1.欧式距离
D
=
∑
k
=
1
n
(
x
k
−
y
k
)
D = \\sqrt\\sum_k=1^n(x_k - y_k)
D=k=1∑n(xk−yk)
2.曼哈顿距离
D
=
∑
k
=
1
n
∣
x
k
−
y
k
∣
D = \\sum_k=1^n|x_k-y_k|
D=k=1∑n∣xk−yk∣
3.切比雪夫距离
D
=
m
a
x
k
(
∣
x
k
−
y
k
∣
)
D = max_k(|x_k-y_k|)
D=maxk(∣xk−yk∣)
4.闵可夫斯基距离
D
=
∑
k
=
1
n
∣
x
k
−
y
k
∣
p
p
D = \\sqrt[p]\\sum_k=1^n|x_k-y_k|^p
D=pk=1∑n∣xk−yk∣p
闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。
其中p是一个变参数
-
当p=1时,就是曼哈顿距离
-
当p=2时,就是欧氏距离
-
当p→∞时,就是切比雪夫距离
5.余弦相似度
余弦相似度
=
s
i
m
i
l
a
r
i
t
y
=
C
o
s
(
θ
)
=
A
⋅
B
∣
∣
A
∣
∣
∣
B
∣
∣
=
∑
i
=
1
n
A
i
×
B
i
∑
i
=
1
n
(
A
i
)
2
∑
i
=
1
n
(
B
i
)
2
余弦相似度 = similarity = Cos(\\theta) = \\fracA\\cdot B||A|||B|| =\\frac\\sum_i=1^nA_i×B_i\\sqrt\\sum_i=1^n(A_i)^2\\sqrt\\sum_i=1^n(B_i)^2
余弦相似度=similarity=Cos(θ)=∣∣A∣∣∣B∣∣A⋅B=∑i=1n(Ai)2∑i=1n(Bi)2∑i=1nAi×Bi
余弦距离 = 1 − s i m i l a r i t y 余弦距离 =1-similarity 余弦距离=1−similarity
6.皮尔逊相似度
皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦
r
x
y
=
∑
i
=
1
n
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
∑
i
=
1
n
(
x
i
−
x
‾
)
2
∑
i
=
1
n
(
y
i
−
y
‾
)
2
r_xy = \\frac\\sum_i=1^n(x_i-\\overlinex)(y_i-\\overliney)\\sqrt\\sum_i=1^n(x_i-\\overlinex)^2\\sqrt\\sum_i=1^n(y_i-\\overliney)^2
rxy=∑i=1n(xi−x)2∑i=1n(yi−y)2∑i=1n(xi−x)(yi−y)
7.Jaccard相似度
J
s
i
m
i
l
a
r
i
t
y
=
1
−
J
(
A
,
B
)
=
1
−
∣
A
∩
B
∣
∣
A
∣
+
∣
B
∣
−
∣
A
∩
B
∣
J_similarity = 1-J(A,B) = 1-\\frac|A \\cap B||A|+|B|-|A\\cap B|
Jsimilarity=1−J(A,B)=1−∣A∣+∣B∣−∣A∩B∣∣A∩B∣
8.汉明距离
汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量
比如:1011101 与 1001001 之间的汉明距离是 2
9.马氏距离
D
(
X
i
,
X
j
)
=
(
X
i
−
X
j
)
T
S
−
1
(
X
i
−
X
j
)
D(X_i,X_j) = \\sqrt(X_i-X_j)^TS^-1(X_i-X_j)
D(Xi,Xj)=(Xi−Xj)TS聚类算法(相似度与性能度量)