获得文本语料和词汇资源

Posted 2020-11-13 lidan-prime

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了获得文本语料和词汇资源相关的知识，希望对你有一定的参考价值。

语料库的访问方法：

raw( ) 没有经过任何语言学处理之前把文件内容分析出来

words( ) 把文本处理成一个个单词

sents( ) 把文本划分成语句，其中每一个句子都是一个词汇链表

注意：数值比较： == 单词比较： =

条件频率分布

条件频率分布是一个对许多NLP都有用的数据结构。

频率分布计算观察到的事件，如词汇。条件频率分布需要给每个事件关联一个条件，所以处理的不是一个词序列，而是一系列的配对序列。

常用方法：

FreqDist( ) : 以一个简单的链表作为输入

ConditionalFreqDist( ) : 以一个配对链表作为输入从配对链表中创建条件频率分布

tabulate( ) ：参数 conditions 指定显示哪些条件， samples 限制要显示的样本

为条件频率分布制表

plot( ) : 为条件频率分布绘图

bigrams( ) : 接受一个词汇链表，并建立起一个连续的词对链表

conditions( ) : 将条件按字母排序来分类

以上是关于获得文本语料和词汇资源的主要内容，如果未能解决你的问题，请参考以下文章