《统计自然语言处理基础》容易忘记的知识点
Posted yaoyaohust
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《统计自然语言处理基础》容易忘记的知识点相关的知识,希望对你有一定的参考价值。
- 语料库
Brown语料库:100万个标注词,标注消歧信息,1970s完成,平衡语料库
Lancaster-Oslo-Bergen(LOB)语料库:Brown语料库的英式英语版本
Susanne语料库:13万词的Brown语料库子集,标注了句法结构
PennTree库:标注句法结构,来源华尔街日报
The Canadian Hansards:加拿大议会议事录,双语语料
WordNet:英语词典,词之间构成网络,标注之间的关系
- 词性
词性 = parts of speech = POS
主要的词性:名词,动词,形容词
名词Noun:人,动物,概念,事物;单数-复数变形,性别变形(拉丁语:filius/filia),格变形(拉丁语:filius/filium,其他语言位置格、工具格,英语中有所有格:the woman‘s house)
形容词Adjective:名词的属性;派生结尾-ly,比较级richer/trendier/more intelligent,最高级richest/trendiest/most intelligent
- 数目Numeral:基数one/two,序数first/second/tenth/mid-twentieth
介词:
代词Pronoun:人称(第一、二、三人称),主格人称代词、宾格人称代词,所有格代词,第二所有格代词:a friend of mine,反身代词:herself/each other
限定词:描述名词的特指;of/on/the/a/in/with/by/for/at/about/under
- 冠词Article:the/a/an
- 指示代词:this/that
- 复数限定词:these/those
- 可单可复限定词:some/any
- 两者联合限定词:either/neither
数量词:all/many/some
- 前置数量词:all/many
- 名词性代词:one/something/anything,somebody
- there用在句首表示存在
- 疑问代词:wh-限定词what/which,所有格wh-代词whose,兵哥wh-代词whom/which/that,主格wh-代词who/which/that
动词Verb:描述动作 She threw the stone,活动 She walked along the river,状态 I have $50
- 词根或原形:walk
- 第三人称单数现在时:walks
- 动名词或进行时:walking
- 过去时或过去分词:walked
- 助动词:have/be/will
- 现在完成时或过去完成时:+have
- 现在进行时:+be
- 情态动词:may/can/should/will
副词Adverb:动词的属性,指定地点、时间、方式、程度,有些也可修饰形容词;often
- 程度副词/限定词:修饰形容词和副词,不修饰动词;very
介词Preposition:表示空间关系;in the glass/on the table/over their heads
- 举例:up(She ran up a hill)
- 小品词:up(She ran up a bill)
- 短语动词:took off/give in/take on
连词Conjunction:
- 并列连词:连接对等句子;and/or/but
- 从属连词:引入动词补语,连接主句从句;that/for
- 文本清洗
垃圾格式/内容:文档页眉页脚,分隔符,排版代码,表,图,计算机文件中的无用数据,脚注,OCR识别错误
大小写:句首的大写字母转成小写,一串连续大写的词作为标题或副标题,其余的大写字母词认作是名字
词项(token):词,数字,标点
逗号和破折号能反映文本结构
词:前后有空格的字符串,可包含连字符和省略号
单撇号:PennTree库将dog‘s看做两个词dog和s
连字符:将连字符两边词切开,并加上标记
多义词
分词问题:中文,日文,泰文,古希腊文,其他语言的复合词
词组判别
电话号码:用正则表达式匹配
口语语音:er/um
词干提取(stemming):尽量不做。因为:浪费信息,大量语言的语法复杂,领域知识缺乏
句子:90%句号是句子的分界,英文新闻句子典型长度是23个词
以上是关于《统计自然语言处理基础》容易忘记的知识点的主要内容,如果未能解决你的问题,请参考以下文章