语料库与语言知识库

Posted 桃陉

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了语料库与语言知识库相关的知识,希望对你有一定的参考价值。


1.包含内容

1.1大规模语言数据

∙ \\bullet 模型训练参数
∙ \\bullet 测评标准

1.2NLP中的知识库

∙ \\bullet 词汇语义库
∙ \\bullet 词法、句法规则库
∙ \\bullet 常识库等


2.语料库

2.1定义

指经科学取样和加工的大规模电子文本库,其中存放的是真实出现过的语言材料

2.2类型

∙ \\bullet 按语言种类:
(1) 单语
(2)双语的或者多语的:篇章对齐/句子对齐/结构对齐

∙ \\bullet 是否标注:
(1)词性标注
(2)句法结构信息标注(树库)
(3)语义信息标注

∙ \\bullet 平行语料库:
两种或多种语言之间的平行采样和加工,比如机器翻译中的双语对齐语料库

2.3典型语料库

∙ \\bullet 宾夕法尼亚大学树库:在 C h i n e s e T r e e B a n k ( C T B ) Chinese Tree Bank(CTB) ChineseTreeBankCTB中汉语词性被划分为33类,23类句法标记

对于一句话的标注如下(树形结构):

∙ \\bullet 北京大学开发的CLKB:包含的内容较多,其中对于汉语短语结构规则库有600条语法规则,对于平行语料库含对译的英汉句对100万…

多级加工语料样例:

∙ \\bullet 口语语料库 B T E C BTEC BTEC,目标是开展语音翻译的国际合作交流,开发实用的语音翻译技术。


3.词汇知识库

3.1WordNet

3.1.1介绍

∙ \\bullet 开发者:普林斯顿大学认知科学实验室
∙ \\bullet 开发目的:解决词典中同义信息的组织问题
∙ \\bullet 五大类词汇:名词、动词、形容词、副词、虚词
∙ \\bullet 特色:按词义组织词汇信息,它算是一部语义词典

3.1.2四种语义关系

∙ \\bullet 同义关系
∙ \\bullet 反义关系
∙ \\bullet 上下位关系或从属/上属关系:{树}是{植物}的下位
∙ \\bullet 部分关系或部分/整体关系

3.1.3应用

∙ \\bullet 词汇消歧
∙ \\bullet 语义推理
∙ \\bullet 理解

3.2HowNet(知网)


4.思维导图

以上是关于语料库与语言知识库的主要内容,如果未能解决你的问题,请参考以下文章

资源推荐自然语言处理知识图谱相关语料大列表

神经网络:神秘的ReLu

NLP入门资料

NLP基础知识和综述

ERNIE:知识图谱结合BERT才是「有文化」的语言模型

GO语言(二十九):模糊测试(下)-