如何降低网站页面相似度?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何降低网站页面相似度?相关的知识,希望对你有一定的参考价值。
调整好网站优化的结构,文章内容要充足,最好在300-500字的原创文章,或者超多80%的伪原创文章,设置好robots.txt禁止百度收录太多的相似页面,网站TAG要和文章量的比例加大,比如说一个TAG要有100篇文章。在每一篇文章上面加上相关的文章链接。简单的说就是以上的几种方法,这几种解决相似页面度的方法相互配合使用可以极大地降低页面相似度,提高页面在搜索引擎中的诚信度。页面相似度主要是指网页内容,网站代码对此影响不大。网站页面相似度包括2方面:站外和站内页面之间的相似度。
(1)站内页面和站外页面之间的相似度
站外页面相似度的查询:是复制站内一段文章到百度,然后出现红字部分的是一样的,说明是复制的,然后打开他的文章,对比一下自己的文章是否有优势,如果别人的文章有图片,那他的文章就比你的好。
如何调整呢?你的文章就是有一段是复制来的,也没有关系,我们要在他的基础上做一些差异性的调整即可。
(2)站内页面之间的相似度
站内页面相似度的查询:页面相似度查询工具:http://tools.aizhan.com/sl/,我们要对产品页面和产品页面进行检查,资讯页面和资讯页面进行检查。大家可以通过这个工具自己检查一下。
相似度是越低越好,没有一个数据标准,那么我们检查出来的64%是比较高的了,相似度越高,这个页面的质量越差。
如何调整呢?为了降低页面的相似度就要减少一些样板文字(样板文字就是每个页面都有这个相同的内容),其实我的除尘器网
站就有一些样板文字需要调整,看个页面:http://www.huakanghb.com/cjwt/20141205012943.html
(1)底部的推荐链接:很多网站都是智能匹配的,不是手动添加的,可能存在每个产品或者大多数产品推荐链接都相同的情况。
(2)公司介绍文字要图片化:很多网站在产品下面有公司优势简介等内容介绍,最好将这种文字进行图片化。
(3)板块的推荐链接: 每个常见问题页面中,都有这种技术知识库,而且还是最新发布的相同的文章,大家可以打开我的页面看看的。这是我以后要去掉的。
(4)下拉导航:要避免下拉导航,下拉导航没有意思,不建议做。
如果你的主管非要做下拉,那么就要重点做,不要每个导航下面都有下拉。
原因:
1.因为有些用户很讨厌去点击导航,更别说是下拉导航了,更不愿意去点击。
2.因为下拉导航的代码也是会提高页面的相似度的,搜索殷勤是看的代码,因为代码与代码之间是相似的。我们自己只看到的是文字,所以文字加上代码相似就更多了。你可以打开自己的代码页面看看是不是很多文字和代码很多相似的。 参考技术A 小宇总结了几个小方法,既不高深,也不复杂,还挺使用。
方法一:拆分法
把原有连续的文章,平均的截取成为2段3段或是更多。
好处:降低相似度、提高访问者浏览的速度、增加页面访问量
方法二:跟随法
把每一个段落的结尾都增加一段话,可以是有情提示,小调查,或是其他文章的推荐。
好处:进一步降低相似度,给可以更多讯息,提供更多使用的功能。例如“回到最上面”
缺点:使用不当将降低用户体验,如果使用JAVASCEIPT等作有可能影响页面加载速度,干扰客户浏览主线。
方法三:标签法
好处:增加用户体验,让客户可以了解更多并不熟悉的专业名词,从而更好理解文章含义。 还可以自然的重复关键字,增加关键字密度。
缺点:如果使用过多,会造成页面信息繁乱,降低用户体验。增加页面体积,降低加载速度。干扰原有关键词布局和密度。
方法四:隐身法
将一些没有实际用处的词使用图片代替,经过优化的GIF图片只有十几个字节,将文章中出现的部分特定字或词进行隐身,也可以很好的达到降低页面相似度的效果。
优点:不干扰关键词布局、不干扰用户体验、不影响浏览和加载速度、有效防止被采集。
缺点:仅仅增加少许加载时间,但几乎可以省略不计。
如果以上四种方法相互配合使用可以极大地降低页面相似度,提高页面在搜索引擎中的诚信度。
不过以上方法都有一个小小的前提,那就是自动化,也就是需要少许程序来协助你。。。不会程度的只能手动完成了。本回答被提问者采纳
百度面试题 字符串相似度 算法 similar_text 和页面相似度算法
在百度的面试,简直就是花样求虐。
首先在面试官看简历的期间,除了一个自己定义字符串相似度,并且写出求相似度的算法。
。。。这个确实没听说过,php的similar_text函数也是闻所未闻的。之前看seo的时候,到简单了解了一下页面的相似度,百度算法中很常见的需要判断页面是否是重复的,重复的肯定就不收录了,做seo很重的一个工作就是写原创文章,以保持网站的更新,吸引百度的收录,以增加流量。
页面的相似度,是纯数学的,因为百度的主要是收录中文,所以中文需要先拆词,然后计算词语的在文章中出现的频度。然后这些词组加权,求出一个向量,然后求两个页面的余弦值。这个东西反正肯定不会,扯淡还是扯的。
这里的字符串的相似度,是譬如abacbcd和abcbcd之类的没有意义的纯字符串。
既然让自己定义,肯定定义一个简单的了,主要就是查找最大相同的字符串及长度。(漏掉好多可能)
回来自己查了一下。才发现如下:
这个similar_text分为三步
第一步
以后接着写。
以上是关于如何降低网站页面相似度?的主要内容,如果未能解决你的问题,请参考以下文章