中文分词算法技术的原理和理论运用
Posted 宁缺SEO
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文分词算法技术的原理和理论运用相关的知识,希望对你有一定的参考价值。
最近在接手公司三个新站的搭建和顺带着一个老站的简单内容更新,对于老站的内容,基本上没有什么大的变化,只是进行了内容关键词的设计以及文章标题的初期的整体修改,发现基本上所发内容网页基本上都会在隔天被百度收录,与以往大不一样,到底是什么产生了这样的影响?现在的计划是等新站全部的展示样式出来之后,便会进行整体大框架规划,包括老站,而这里想说的就是关于分词技术理论的简单介绍。
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。由于国内主要以中文搜索引擎为主,这里的分词技术为中文分词技术。
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多,所以中文词语分析可以说是中文信息处理的基础与关键。
一般而言,分词算法可分为三大类:基于字典、词库匹配的分词方法,基于词频度统计的分词方法和基于知识理解的分词方法。
常见的分词算法大致分为五大类:
1.逐词遍历法
逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。
2.基于字典、词库匹配的分词方法
这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
3.全切分和基于词的频度统计的分词方法
基于词的频度统计的分词方法是一种全切分方法。
4.基于知识理解的分词方法
该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。
5.并行分词方法
这种分词方法借助于一个含有分词词库的管道进行 ,比较匹配过程是分步进行的 ,每一步可以对进入管道中的词同时与词库中相应的词进行比较 ,由于同时有多个词进行比较匹配 ,因而分词速度可以大幅度提高。
作用到我们具体的SEO工作中,对象为文章标题和文章内容:
文章标题:
文章标题相对来说是页面和关键词相关度中最重要的部分,所以SEO人员常常会将大部分精力放在文章标题上,会将一篇文章对应的长尾关键词通过正向、逆向切分及所掌握的专业词汇进行词语提取,来进行分词。然后把切分出来的词语有机组合到文章标题中,目的就是在一个标题内覆盖尽可能多的搜索词。
文章内容:
对于文章内容来说,由于内容的文字较多,不像文章标题长度有限,所以没有那么多的局限性,可发挥的空间足够大,分词方法同文章标题。
之所以简单的介绍中文分词算法,是因为做为SEO人员或者编辑人员其实并不需要去对分词原理和技术进行详细的了解,只要对其原理有基本的认知,能进行分词的简单运用就可以了。
很多小型的公司大多都是SEO兼职编辑的,所以这个时候如果我们懂得分词算法原理的简单运用可以使得工作更加轻松与事半功倍;而如果公司有专门的编辑人员,这个时候可能更需要我们去熟练的运用分词算法原理,只有自己对其有充分的认知,才能去合理的指导编辑人员在编写文章时合理的进行关键词布局并培养编辑人员的分词布局意识。否则只能让专业的编辑人员为了分词而写不好文章,那样写出来的文章既不能符合SEO分词的需求,又会降低了用户体验。
以上是关于中文分词算法技术的原理和理论运用的主要内容,如果未能解决你的问题,请参考以下文章