文本挖掘——Rocchio算法
Posted 私人数据挖掘机
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘——Rocchio算法相关的知识,希望对你有一定的参考价值。
(miner==小编)
文本挖掘涉及诸多领域,其中分类是一个和数据挖掘联系紧密的方面。数据挖掘的很多算法可以被运用到文本挖掘中。
Rocchio算法其实就是一个利用词汇的相似性来分类的算法。原理清晰简单。
本质上就是看哪些文字长得像,是一种“以貌取人”的算法。
比方说,有一天你有了个孩子,但是医院里一天出生的孩子太多了,婴儿护理房的孩子长得也几乎差不多,不是也发生过领错孩子然后导致他们命运天差地别的故事嘛。如果你不想搞错的话,保险起见是做个亲自鉴定,但是一般人不愿意花那个钱,所以有人就用自己的眼睛来看,那个看着最像你的孩子应该就是你的没错了。看的时候也是有讲究的,笼统的看小孩儿都差不多,所以要把小孩的五官分开观察,看看眼睛像不像,鼻子像不像。那个最后综合起来最像的的小孩就是你的咯。
算法:
Rocchio算法和在护理房找小孩的例子很像,是判断词汇的相似性,五官的相似判断和词汇的相似判断是一样的。既然是运用了词汇的相似性,那么首先必须进行的操作是分词,就是分别观察小孩儿五官和自己的相似程度,把每个独立的词汇分割开来,这对于英文来说相对比较简单,空格分隔就行了,中文操作起来比较蛮烦,需要借助一些智能分词系统。
分词结束以后需要统计每个单词出现的频率,出现较多的单词频率相对较高,不同类型的文本高频词的类型肯定不同,就像不同的人眼睛鼻子的大小不相同一样。因此相同类型的文本高频词相对比较接近,可以使用余弦相似度来计算两个文本之间的相似性。
a向量表示样本,代表一种类型的文本,b向量表示测试样本,等待分类。将测试样本与每种类型的样本进行余弦相似度的计算,相似度最大的那个类型就是测试样本的类型,分类完成。
实例:
样本来源于VOA的新闻内容,英文的分词依据是空格相对简洁易实现。首先选择了三篇不同类型的文章:政治、健康、自然。再选择一篇政治题材的文章,看是否如我们想象中的那样,与政治那篇文章的相似度最高。结果显示,确实和原始样本中的政治题材文章相似度最高。
以上是关于文本挖掘——Rocchio算法的主要内容,如果未能解决你的问题,请参考以下文章