机器学习聚类算法中的距离度量有哪些及公式表示?

Posted Better Bench

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习聚类算法中的距离度量有哪些及公式表示?相关的知识,希望对你有一定的参考价值。

聚类算法中的距离度量有哪些?

1.欧式距离
D = ∑ k = 1 n ( x k − y k ) D = \\sqrt\\sum_k=1^n(x_k - y_k) D=k=1n(xkyk)

2.曼哈顿距离
D = ∑ k = 1 n ∣ x k − y k ∣ D = \\sum_k=1^n|x_k-y_k| D=k=1nxkyk

3.切比雪夫距离
D = m a x k ( ∣ x k − y k ∣ ) D = max_k(|x_k-y_k|) D=maxk(xkyk)

4.闵可夫斯基距离
D = ∑ k = 1 n ∣ x k − y k ∣ p p D = \\sqrt[p]\\sum_k=1^n|x_k-y_k|^p D=pk=1nxkykp
闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。

其中p是一个变参数

  • 当p=1时,就是曼哈顿距离

  • 当p=2时,就是欧氏距离

  • 当p→∞时,就是切比雪夫距离

5.余弦相似度
余弦相似度 = s i m i l a r i t y = C o s ( θ ) = A ⋅ B ∣ ∣ A ∣ ∣ ∣ B ∣ ∣ = ∑ i = 1 n A i × B i ∑ i = 1 n ( A i ) 2 ∑ i = 1 n ( B i ) 2 余弦相似度 = similarity = Cos(\\theta) = \\fracA\\cdot B||A|||B|| =\\frac\\sum_i=1^nA_i×B_i\\sqrt\\sum_i=1^n(A_i)^2\\sqrt\\sum_i=1^n(B_i)^2 余弦相似度=similarity=Cos(θ)=∣∣A∣∣∣B∣∣AB=i=1n(Ai)2 i=1n(Bi)2 i=1nAi×Bi

余弦距离 = 1 − s i m i l a r i t y 余弦距离 =1-similarity 余弦距离=1similarity

6.皮尔逊相似度

皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦
r x y = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 r_xy = \\frac\\sum_i=1^n(x_i-\\overlinex)(y_i-\\overliney)\\sqrt\\sum_i=1^n(x_i-\\overlinex)^2\\sqrt\\sum_i=1^n(y_i-\\overliney)^2 rxy=i=1n(xix)2 i=1n(yiy)2 i=1n(xix)(yiy)

7.Jaccard相似度
J s i m i l a r i t y = 1 − J ( A , B ) = 1 − ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ − ∣ A ∩ B ∣ J_similarity = 1-J(A,B) = 1-\\frac|A \\cap B||A|+|B|-|A\\cap B| Jsimilarity=1J(A,B)=1A+BABAB

8.汉明距离

汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量

比如:1011101 与 1001001 之间的汉明距离是 2

9.马氏距离
D ( X i , X j ) = ( X i − X j ) T S − 1 ( X i − X j ) D(X_i,X_j) = \\sqrt(X_i-X_j)^TS^-1(X_i-X_j) D(Xi,Xj)=(XiXj)TS聚类算法(相似度与性能度量)

机器学习距离度量中常见的距离计算公式

机器学习常用距离度量

“余弦”度量在 sklearn 聚类算法中如何工作?

01 主题模型 - 大纲

必备!机器学习中需要掌握的9种距离度量方法!