获得文本语料和词汇资源

Posted lidan-prime

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了获得文本语料和词汇资源相关的知识,希望对你有一定的参考价值。

语料库的访问方法:

raw( )       没有经过任何语言学处理之前把文件内容分析出来

words( )     把文本处理成一个个单词    

sents( )      把文本划分成语句,其中每一个句子都是一个词汇链表

注意: 数值比较: ==                           单词比较: =

 

条件频率分布

条件频率分布是一个对许多NLP都有用的数据结构。

频率分布计算观察到的事件,如词汇。条件频率分布需要给每个事件关联一个条件,所以处理的不是一个词序列,而是一系列的配对序列。

 

常用方法:

FreqDist( ) :  以一个简单的链表作为输入

ConditionalFreqDist( ) : 以一个配对链表作为输入   从配对链表中创建条件频率分布

tabulate( ) :   参数 conditions 指定显示哪些条件, samples 限制要显示的样本

为条件频率分布制表

plot( ) :  为条件频率分布绘图

bigrams( ) :    接受一个词汇链表,并建立起一个连续的词对链表

conditions( ) :   将条件按字母排序来分类

 

 

 

以上是关于获得文本语料和词汇资源的主要内容,如果未能解决你的问题,请参考以下文章

Python3自然语言处理——获得文本语料库和词汇资源

python+NLTK 自然语言学习处理四:获取文本语料和词汇资源

python 自然语言处理____词典资源

NLP语料库

根据文本语料库中的出现列出词汇表中的单词,使用 Scikit-Learn CountVectorizer

NLP中文酒店评论语料文本数据分析