大数据学习笔记:距离度量和相似度度量
Posted howard2005
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据学习笔记:距离度量和相似度度量相关的知识,希望对你有一定的参考价值。
一、度量
(一)概述
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。而如何来度量数据之间的差异则成为关键,分类算法或聚类算法的本质都是基于某种度量(距离度量和相似度度量)来实现的。
(二)距离度量
1、距离度量概念
距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。
2、常用距离度量
- 欧氏距离
- 明可夫斯基距离
- 曼哈顿距离
- 切比雪夫距离
- 马氏距离
(三)相似度度量
1、相似度度量概念
相似度用距离来度量,相似度度量指标种类如下图所示。相似度通常是非负的,取值在0-1之间。距离越大,相似性越小,在应用过程中要注意计算的是相似度还是距离。
2、常用相似度度量
- 向量空间余弦相似度(Cosine Similarity)
- 皮尔森相关系数(Pearson Correlation Coefficient)
以上是关于大数据学习笔记:距离度量和相似度度量的主要内容,如果未能解决你的问题,请参考以下文章