Jaccard相关系数和Tanimoto系数
Posted kevin-heydn-wong
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Jaccard相关系数和Tanimoto系数相关的知识,希望对你有一定的参考价值。
Jaccard相关系数用来衡量两个集合的相关性,数值越大,相似度就越高。相对于Jaccard系数,Jaccard距离是用来衡量两个样本集合的差异性的。
Jaccard相关系数:
Jaccard距离:
如果A,B集合中元素的取值为二值数(0,或者1,0代表此元素不在这个集合中,1代表此元素在这个集合中)那么Jaccard相关系数和Jaccard距离也可以这样求:
M11代表A,B集合中相同位置同为1的个数
M01 代表A集合中相同位置元素为0,而B集合为1的个数
M10代表A集合中相同位置元素为1,而B集合为0的个数
M00代表A,B集合中相同位置同为0的个数
因为在大多情况下 ,0的个数会大大多于1的个数,就会显得很稀疏,如果只考虑M11,则有:
s=M11/(M00+M10+M01+M11) 称为Jaccard距离
而Tanimoto系数又称为广义的Jaccard相关系数
A,B代表两个样本向量
以上是关于Jaccard相关系数和Tanimoto系数的主要内容,如果未能解决你的问题,请参考以下文章
metric笔记:Jaccard 相似系数&Jaccard距离