中文分词及词云在专利分析中的应用

Posted 科睿唯安知识产权

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文分词及词云在专利分析中的应用相关的知识,希望对你有一定的参考价值。

一国的创新能力不仅仅体现在专利的数量和质量,而是应当看该国语言是否占有某领域的统治地位或极大的影响力。如十八世纪,法国成为启蒙运动的中心,法语成为欧美上流社会和知识分子的国际语言,更是外交和法律的统治语言。又如十九世纪,德国成为世界科学和研究的中心,当时的一流科技文献中德语占70%以上。二十世纪至今的英美语系取而代之成为当代的国际通用语言,包括在知识产权领域,各国不同语言的专利在Derwent专利数据库中被翻译成英语,并以英语作为科技界、法律界和知识产权界的通用工作语言。

 

一国的语言是一国人的表达方式,也是该国科技和文化的载体。每一位热爱自己祖国的人都会觉得本国的母语是世界上最美的语言,并为本国的语言而感到自豪和骄傲。汉语经历五千年文明的沉淀和演化,逐步形成现在人们所使用的现代汉语。而中国大陆伴随改革开放40年的经济发展,逐步从一国贫穷和落后的国家跻身世界经济大国,GDP稳居世界第二。同时,在科技和创新领域中国也在进一步缩短同发达国家的差距。

 

在知识产权方面,中文专利的重要性和影响力伴随中国科技的发展而显现。更多优秀本国企业开始崭露头角引领世界科技和发展趋势,他们会首先在中国大陆优先申请和公开专利。同时国际巨头和领先企业也更为重视中国市场,通常他们在获得国际PCT优先权的第一时间就会部署中国专利。

 

因此,直接研究和分析以中文专利文本就显得尤为必要,为拥有超前意识的企业提供了先决发展条件。同时,基于本国母语对专利文本进行分析和展示也非常直观,便于读者理解。


01

中文分词简介

在西方语言,如英语的行文中,单词之间是以空格作为自然分界符。而中文只有字、句和段能通过明显的分界符来划界,唯独词没有一个形式上的分界符。虽然英文在部分短语的划分问题也存在同样问题,不过在词这一层上,中文确实要比英文复杂得多、困难得多。


古代汉语中,除了人名、地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。现代汉语的基本表达单元也不再是单个的字了,而是以词作为最小单元,且以双字或者多字词居多。


中文分词是指将现代汉语中的句子切分成单独的表达含义的字或词。或者说,分词就是将连续的汉字序列按照一定的规范重新组合成字或词序列的过程。如下以一个顺口溜举例,如果没有进行分词,未经练习的人恐怕很难说得利索。经过分词后,分词符号为 | ,就变得比较容易理解和区分了。

原始语句:黑化肥发灰会挥发;灰化肥挥发会发黑。

分词结果:黑化肥 | 发灰 | 会 | 挥发;灰化肥 | 挥发 | 会 | 发黑。

但由于人们认识水平的不同,对词和短语的边界很难去区分。例如:“对专利侵权者给予处罚”,“专利侵权者”本身是一个词还是一个短语,不同的人会有不同的标准。即使是完全相同的文本和句子,不同的分词会产生完全不同的语义,并给读者造成不同的理解,存在歧义。例如:“羽毛球拍卖完了”,可以切分成“羽毛 | 球拍 | 卖完了”、也可切分成“羽毛球 | 拍卖 | 完了”,如果没有上下文或其他的补充,恐怕谁也不能断言“拍卖”在这里算不算一个词。


02

中文分词算法

对于一句话,人可以通过自己的知识和智力来明白哪些是词,哪些不是词,但如何让计算机也能理解并进行处理,这样的过程就是中文分词算法。


分词算法是自然语言处理和文本挖掘的基础,中文分词算法指在输入一段中文字符串后,通过计算机自动识别语句中所应包含的字或词,最终能成功地输出该段语句所对应的分词结果,该分词结果经一步为语句和语义的识别奠定基础。


现有的中文分词算法可归纳为如下策略:首先基于公知的中文词典,先将常用的词在计算机中进行建档,随后将待处理的文本以字符串的方式同词典进行匹配和比较,若在词典中能找到某一对应的字符串,则成功匹配或识别出一个词。对于较难鉴定的词,则可根据不同的权重函数或文本中词出现的频率进行评估,最终通过评分,计算机得出结论,并认为已识别出了语句中的字或词。更先进的算法还可包含同义词和反义词的语义评估,以进一步提高分词和识别的正确率。

常用的中文分词算法举例如下:

  • 正向最大匹配算法 

  • 逆向最大匹配算法 

  • 正向最小匹配算法 

  • 逆向最小匹配算法 

  • 双向最大匹配算法 

  • 双向最小匹配算法 

  • 双向最大最小匹配算法 

  • 全切分算法 

  • 最少词数算法 

  • 最大多元分值算法 

  • 最大概率分词算法 


03

中文分词应用


如下本文采用中文分词算法,先计算出分词结果,随后采用词云作为可视化方法进行展示。词云就是根据文本中关键词出现频率的高低,对关键词的文字大小进行突显,从而过滤掉文本中的次要信息,体现重要信息。


以我国2017年第十九届中国专利金奖获得项目中,5篇代表性专利文本在不同技术领域为例,中文分词及词云可视化效果如下,使浏览者只要扫一眼词云就可以领略文本的主旨。



中文分词及词云在专利分析中的应用


中文分词及词云在专利分析中的应用


中文分词及词云在专利分析中的应用


中文分词及词云在专利分析中的应用


04

总结

语言文字是一国科技和文化的载体和表达方式。


当且仅当一个国家的创新和技术,发明人采用本国语言记载和优先公布该发明的时候,这项创新和发明才更有尊严。


当且仅当一个国家的发明的数量和质量达到一定高度时,并在世界范围内产生影响力的时候,基于该国语言的专利分析才更有意义。

【作者简介】

吴飞

任职于上海微电子装备(集团)股份有限公司,创新业务主管,发表专著1部,获发明专利授权24项。

【企业简介】

上海微电子装备(集团)股份有限公司(简称SMEE)主要致力于半导体装备、泛半导体装备、高端智能装备的开发、设计、制造、销售及技术服务。公司设备广泛应用于集成电路前道、先进封装、FPD面板、MEMSLEDPower Devices等制造领域。企业已通过GB/T29490企业知识产权管理规范认证,先后被评为“国家级知识产权示范企业”、“国家企业技术中心”、“上海市专利工作和知识产权示范企业”。




“企业国际化智库”微信公号与本文作者对本文的全部内容以及可能附带的全部资料拥有全部知识产权,并受法律保护。网络转载请注明作者及内容来源,商业使用请联系:victoria.wang@clarivate.com

以上是关于中文分词及词云在专利分析中的应用的主要内容,如果未能解决你的问题,请参考以下文章

R语言jiebaR包文本中文分词及词云制作上机练习

中文词频统计及词云制作

中文词频统计及词云制作

中文词频统计及词云制作

中文词频统计及词云制作

中文词频统计及词云制作