百度搜索的中文分词方法详解

Posted UFO搜索

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了百度搜索的中文分词方法详解相关的知识,希望对你有一定的参考价值。

       百度,作为目前全球处于垄断地位的中文搜索引擎,掌握着一套熟练的中文分词技术,当搜索引擎蜘蛛将网站内容索引后,就会通过中文分词技术将网站信息“入库”。下面就为大家深入分析百度排名中文分词的基本原理:

  1.字符串匹配的分词方法


首先来看正向最大匹配法,就是把一个词从左至右来分词。

举个例子,“不知道你在说什么”这句话采用正向最大匹配法是如何进行分词的呢?结果是“不知道,你,在,说什么”。

 

其次是反向最大匹配法。

沿用例子,“不知道你在说什么”用反向最大匹配法如何进行分词?答案是“不,知道,你在,说,什么”。这次就分得比较细了。反向最大匹配法就是从右至左来分词。

 

最后是最短路径分词法。

怎么理解呢?就是将一段话切出最少的词数。还是用“不知道你在说什么”举例,用最短路径分词法来分,就是把这句话分成最少的词。答案是“不知道,你在,说什么”,只有3个词。当然,上面3种方法可以相互结合,组成一些分词方法。例如,正向最大匹配法和反向最大匹配法组合起来就可以叫作双向最大匹配法。

 

  2.词义分词法

  词义分词法其实就是一种机器语音判断分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象并进行分词。这种分词方法现在还不成熟,处于测试阶段。

 

  3.统计的分词方法

  统计的分词方法很简单,就是根据词组的统计结果来分词。如果发现两个相邻的字出现的频率最高,那么这个词就很重要,就可以作为用户提供字符串中的分隔符。例如,“我的”、“你的”、“许多的”、“这里”、“这一”、“那里”等词出现得比较多,就可以从这些词的位置来分词。

 

  这些分出来的词,把它们都作为你站点的主题页,导入链接权重上来了,竞争力就大了,因为这些页面把它内链起来。用锚链接,指向主页的目标关键词。这就是分词的好处。它能够提升目标关键词的排名的竞争力,同时给站点带来一定流量。且导入链接权重上来了,竞争力就大了,因为这些页面把它内链起来。中文分词问题是绝大多数中文信息处理的基本问题。中文分词系统在搜索引擎、推荐系统(尤其是相关主题推荐和基于内容的过滤推荐)、大量文本自动分类等部分是一个关键部件。

 



本文来源于网络,侵删



回复数字(不含【】)了解更多精彩内容)

【100】移动网站搜索优化秘籍+Google优化方法及Google SEO策略+数据告诉你:小米不行了

【101】2017《中国互联网络发展统计报告》基础应用类应用发展

【102】《2017年Q3中国移动互联网行业发展分析报告》

【104】谷歌内链优化技巧+你不会再记得网址是什么了+相似图片搜索的原理

期待您的意见、建议,也欢迎您投稿分享知识与观点!




以上是关于百度搜索的中文分词方法详解的主要内容,如果未能解决你的问题,请参考以下文章

seo干货之百度中文分词技术详解

百度中文分词如何分词

百度中文分词技术是什么?

搜索引擎中文分词的基础原理

什么是搜索引擎分词技术?

elasticsearch中文分词+全文搜索