语料库与语言知识库
Posted 桃陉
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了语料库与语言知识库相关的知识,希望对你有一定的参考价值。
目录
1.包含内容
1.1大规模语言数据
∙
\\bullet
∙ 模型训练参数
∙
\\bullet
∙ 测评标准
1.2NLP中的知识库
∙
\\bullet
∙ 词汇语义库
∙
\\bullet
∙ 词法、句法规则库
∙
\\bullet
∙ 常识库等
2.语料库
2.1定义
指经科学取样和加工的大规模电子文本库,其中存放的是真实出现过的语言材料
2.2类型
∙
\\bullet
∙ 按语言种类
:
(1) 单语
(2)双语的或者多语的:篇章对齐/句子对齐/结构对齐
∙
\\bullet
∙ 是否标注
:
(1)词性标注
(2)句法结构信息标注(树库)
(3)语义信息标注
∙
\\bullet
∙ 平行语料库
:
两种或多种语言之间的平行采样和加工,比如机器翻译中的双语对齐语料库
2.3典型语料库
∙
\\bullet
∙ 宾夕法尼亚大学树库
:在
C
h
i
n
e
s
e
T
r
e
e
B
a
n
k
(
C
T
B
)
Chinese Tree Bank(CTB)
ChineseTreeBank(CTB)中汉语词性被划分为33类,23类句法标记
对于一句话的标注如下(树形结构):
∙
\\bullet
∙ 北京大学开发的CLKB
:包含的内容较多,其中对于汉语短语结构规则库有600条语法规则,对于平行语料库含对译的英汉句对100万…
多级加工语料样例:
∙
\\bullet
∙ 口语语料库
:
B
T
E
C
BTEC
BTEC,目标是开展语音翻译的国际合作交流,开发实用的语音翻译技术。
3.词汇知识库
3.1WordNet
3.1.1介绍
∙
\\bullet
∙ 开发者:普林斯顿大学认知科学实验室
∙
\\bullet
∙ 开发目的:解决词典中同义信息的组织问题
∙
\\bullet
∙ 五大类词汇:名词、动词、形容词、副词、虚词
∙
\\bullet
∙ 特色:按词义组织词汇信息,它算是一部语义词典
3.1.2四种语义关系
∙
\\bullet
∙ 同义关系
∙
\\bullet
∙ 反义关系
∙
\\bullet
∙ 上下位关系或从属/上属关系:{树}是{植物}的下位
∙
\\bullet
∙ 部分关系或部分/整体关系
3.1.3应用
∙
\\bullet
∙ 词汇消歧
∙
\\bullet
∙ 语义推理
∙
\\bullet
∙ 理解
3.2HowNet(知网)
4.思维导图
以上是关于语料库与语言知识库的主要内容,如果未能解决你的问题,请参考以下文章