自然语言处理--语料

Posted 微冷不觉寒

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理--语料相关的知识,希望对你有一定的参考价值。

       语料库可以看成一种数据库,里面存储的是语言数据。所谓的语料就是语言数据,有很多种形式,最简单的是文本,此外还有音频,视频等。一句话,一段文字就是一份语料。若干个类似的资料集合在一起就是语料库。对这些语言数据(语料)可以进行标注,以达到增值的目的,这里的价值包括研究价值,商业价值等。现在的语料库一般都是研究用的很少有商业用途,但是个人感觉其商业价值是很有潜力的。另,没标注的叫生语料,标注过的叫熟语料。

以上是关于自然语言处理--语料的主要内容,如果未能解决你的问题,请参考以下文章

资源推荐自然语言处理知识图谱相关语料大列表

自然语言处理第二讲:单词计数

最新中文自然语言处理 语料/数据集

python 自然语言处理____获得文本语料和词汇资源

自然语言处理——NLTK文本语料库

Python中文语料批量预处理手记