R语言自然语言处理2:Zipf's Law
Posted R语言数据分析与实践
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言自然语言处理2:Zipf's Law相关的知识,希望对你有一定的参考价值。
Zipf's law:是美国语言学家G.Zipf在对莎士比亚等作家的作品进行数理统计后于1935年提出的词频分布定律。该定律发现了在按频率递减顺序排列的频率词表中,单词的频率与它的序号之间存在“power low关系”——即,如果把单词按使用频率排序,那么使用频率与序号之间几乎恰好成反比。
数字化人文
自然语言处理(NLP)中,对文本数据进行分词并统计文本中的词频,是基础而重要的工作。通过分析上万篇、甚至几十万篇历史文献,对同一时期的作者观点进行高度提炼,是数字化人文社科主要的发展方向之一。
对数据库中几十万篇文章进行词频统计,这一过程是庞大而且工作量巨大的,Zipf's Law是文献计量学中的重要定律之一,是描述词频分布规律的强大数学模型,借助R语言可以在短短的几小时内完成上万篇文本分析。
词频分析
研究词频分布对编制词表、制定标引规则、设计情报系统、分析作者著述特征、进行词汇分析与控制等都具有重要意义和应用价值。
词频的差异有助于使用较少的词语表达尽可能多的语义,符合语言的经济学原则。
Zif's Law:如果把一段文字中的所有词语按出现频率从高到低排列起来,排第二的词语按出现频率就约为第一的一半,排第三的词语出现频率就约为第一的三分之一,以此类推,排第n的词语出现次数约为第一的1/n。
Zipf‘s Law
Zipf’s Law,最一般的表述形式还包含一个指数a,即排第n的词语出现次数约为第一的
(1/n)^a
当代入实际数据拟合后,a的值其实非常接近1。目前语言学的词频分布研究已经成为一个热点方向,是幂律研究领域的一个重要内容。
Zipf's Law不仅对报刊、古文献有效,而且对狄更斯小说、莎士比亚戏剧也同样有效。
应用案例
Zipf's Law表明:在英文单词中,只有极少数的词经常被使用,而绝大多数次很少被使用。
实际上,包括汉语在内的许多国家的语言都有这种特点。而由Zipf's Law可知,只要掌握一种语言的1000个最常用词,就有可能读懂该语言文章的80%。这个事实对于语言教学以及自然语言信息处理都是十分重要的。
在信息学中,词频往往是包含大量有检索意义的“关键词”,正如将一篇文献全文输入计算机系统中,计算机会很容易分析其中的词频,因此词频分布也是文献自动分类、自动标引的研究对象。
汉语言应用
自然语言处理(对应1/0机器语言),无论是英语还是汉语,甚至其他语种,词频与序号之间存在相似的幂律关系。
中国江南大学的研究者以诺贝尔文学奖得主莫言的《红高粱》《蛙》《透明的红萝卜》为主要研究对象,采用词频统计软件和汉语词频统计软件,分析莫言作品中的字频和词频,发现都能满足Zipf's Law。
这项研究从统计学角度提供了莫言可以成为中国大陆首位诺贝尔文学奖得主的可能原因之一。
以上是关于R语言自然语言处理2:Zipf's Law的主要内容,如果未能解决你的问题,请参考以下文章