百度面试题 字符串相似度 算法 similar_text 和页面相似度算法
Posted 十一点睡觉
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了百度面试题 字符串相似度 算法 similar_text 和页面相似度算法相关的知识,希望对你有一定的参考价值。
在百度的面试,简直就是花样求虐。
首先在面试官看简历的期间,除了一个自己定义字符串相似度,并且写出求相似度的算法。
。。。这个确实没听说过,php的similar_text函数也是闻所未闻的。之前看seo的时候,到简单了解了一下页面的相似度,百度算法中很常见的需要判断页面是否是重复的,重复的肯定就不收录了,做seo很重的一个工作就是写原创文章,以保持网站的更新,吸引百度的收录,以增加流量。
页面的相似度,是纯数学的,因为百度的主要是收录中文,所以中文需要先拆词,然后计算词语的在文章中出现的频度。然后这些词组加权,求出一个向量,然后求两个页面的余弦值。这个东西反正肯定不会,扯淡还是扯的。
这里的字符串的相似度,是譬如abacbcd和abcbcd之类的没有意义的纯字符串。
既然让自己定义,肯定定义一个简单的了,主要就是查找最大相同的字符串及长度。(漏掉好多可能)
回来自己查了一下。才发现如下:
这个similar_text分为三步
第一步
以后接着写。
以上是关于百度面试题 字符串相似度 算法 similar_text 和页面相似度算法的主要内容,如果未能解决你的问题,请参考以下文章