大数据学习笔记:距离度量和相似度度量

Posted howard2005

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据学习笔记:距离度量和相似度度量相关的知识,希望对你有一定的参考价值。

一、度量

(一)概述

在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。而如何来度量数据之间的差异则成为关键,分类算法或聚类算法的本质都是基于某种度量(距离度量和相似度度量)来实现的。

(二)距离度量

1、距离度量概念

距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。

2、常用距离度量

  • 欧氏距离
  • 明可夫斯基距离
  • 曼哈顿距离
  • 切比雪夫距离
  • 马氏距离

(三)相似度度量

1、相似度度量概念

相似度用距离来度量,相似度度量指标种类如下图所示。相似度通常是非负的,取值在0-1之间。距离越大,相似性越小,在应用过程中要注意计算的是相似度还是距离。

2、常用相似度度量

  • 向量空间余弦相似度(Cosine Similarity)
  • 皮尔森相关系数(Pearson Correlation Coefficient)

以上是关于大数据学习笔记:距离度量和相似度度量的主要内容,如果未能解决你的问题,请参考以下文章

相似性度量

[读书笔记]机器学习:实用案例解析

聚类算法(相似度与性能度量)

常见的相似度度量算法

距离和相似度度量方法

距离和相似度度量方法