文本挖掘——Rocchio算法

Posted 2021-04-16 私人数据挖掘机

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本挖掘——Rocchio算法相关的知识，希望对你有一定的参考价值。

（miner==小编）

文本挖掘涉及诸多领域，其中分类是一个和数据挖掘联系紧密的方面。数据挖掘的很多算法可以被运用到文本挖掘中。

Rocchio算法其实就是一个利用词汇的相似性来分类的算法。原理清晰简单。

本质上就是看哪些文字长得像，是一种“以貌取人”的算法。

比方说，有一天你有了个孩子，但是医院里一天出生的孩子太多了，婴儿护理房的孩子长得也几乎差不多，不是也发生过领错孩子然后导致他们命运天差地别的故事嘛。如果你不想搞错的话，保险起见是做个亲自鉴定，但是一般人不愿意花那个钱，所以有人就用自己的眼睛来看，那个看着最像你的孩子应该就是你的没错了。看的时候也是有讲究的，笼统的看小孩儿都差不多，所以要把小孩的五官分开观察，看看眼睛像不像，鼻子像不像。那个最后综合起来最像的的小孩就是你的咯。

算法：

Rocchio算法和在护理房找小孩的例子很像，是判断词汇的相似性，五官的相似判断和词汇的相似判断是一样的。既然是运用了词汇的相似性，那么首先必须进行的操作是分词，就是分别观察小孩儿五官和自己的相似程度，把每个独立的词汇分割开来，这对于英文来说相对比较简单，空格分隔就行了，中文操作起来比较蛮烦，需要借助一些智能分词系统。

分词结束以后需要统计每个单词出现的频率，出现较多的单词频率相对较高，不同类型的文本高频词的类型肯定不同，就像不同的人眼睛鼻子的大小不相同一样。因此相同类型的文本高频词相对比较接近，可以使用余弦相似度来计算两个文本之间的相似性。

a向量表示样本，代表一种类型的文本，b向量表示测试样本，等待分类。将测试样本与每种类型的样本进行余弦相似度的计算，相似度最大的那个类型就是测试样本的类型，分类完成。

实例：

样本来源于VOA的新闻内容，英文的分词依据是空格相对简洁易实现。首先选择了三篇不同类型的文章：政治、健康、自然。再选择一篇政治题材的文章，看是否如我们想象中的那样，与政治那篇文章的相似度最高。结果显示，确实和原始样本中的政治题材文章相似度最高。

以上是关于文本挖掘——Rocchio算法的主要内容，如果未能解决你的问题，请参考以下文章