《统计自然语言处理基础》容易忘记的知识点

Posted yaoyaohust

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《统计自然语言处理基础》容易忘记的知识点相关的知识,希望对你有一定的参考价值。

  • 语料库

Brown语料库:100万个标注词,标注消歧信息,1970s完成,平衡语料库

Lancaster-Oslo-Bergen(LOB)语料库:Brown语料库的英式英语版本

Susanne语料库:13万词的Brown语料库子集,标注了句法结构

PennTree库:标注句法结构,来源华尔街日报

The Canadian Hansards:加拿大议会议事录,双语语料

WordNet:英语词典,词之间构成网络,标注之间的关系

 

  • 词性

词性 = parts of speech = POS

主要的词性:名词,动词,形容词

名词Noun:人,动物,概念,事物;单数-复数变形,性别变形(拉丁语:filius/filia),格变形(拉丁语:filius/filium,其他语言位置格、工具格,英语中有所有格:the woman‘s house)

形容词Adjective:名词的属性;派生结尾-ly,比较级richer/trendier/more intelligent,最高级richest/trendiest/most intelligent

- 数目Numeral:基数one/two,序数first/second/tenth/mid-twentieth

介词:

代词Pronoun:人称(第一、二、三人称),主格人称代词、宾格人称代词,所有格代词,第二所有格代词:a friend of mine,反身代词:herself/each other

限定词:描述名词的特指;of/on/the/a/in/with/by/for/at/about/under

- 冠词Article:the/a/an

- 指示代词:this/that

- 复数限定词:these/those

- 可单可复限定词:some/any

- 两者联合限定词:either/neither

数量词:all/many/some

- 前置数量词:all/many

- 名词性代词:one/something/anything,somebody

- there用在句首表示存在

- 疑问代词:wh-限定词what/which,所有格wh-代词whose,兵哥wh-代词whom/which/that,主格wh-代词who/which/that

动词Verb:描述动作 She threw the stone,活动 She walked along the river,状态 I have $50

- 词根或原形:walk

- 第三人称单数现在时:walks

- 动名词或进行时:walking

- 过去时或过去分词:walked

- 助动词:have/be/will

- 现在完成时或过去完成时:+have

- 现在进行时:+be

- 情态动词:may/can/should/will

副词Adverb:动词的属性,指定地点、时间、方式、程度,有些也可修饰形容词;often

- 程度副词/限定词:修饰形容词和副词,不修饰动词;very

介词Preposition:表示空间关系;in the glass/on the table/over their heads

- 举例:up(She ran up a hill)

- 小品词:up(She ran up a bill)

- 短语动词:took off/give in/take on

连词Conjunction:

- 并列连词:连接对等句子;and/or/but

- 从属连词:引入动词补语,连接主句从句;that/for

 

  • 文本清洗

垃圾格式/内容:文档页眉页脚,分隔符,排版代码,表,图,计算机文件中的无用数据,脚注,OCR识别错误

大小写:句首的大写字母转成小写,一串连续大写的词作为标题或副标题,其余的大写字母词认作是名字

词项(token):词,数字,标点

逗号和破折号能反映文本结构

词:前后有空格的字符串,可包含连字符和省略号

单撇号:PennTree库将dog‘s看做两个词dog和s

连字符:将连字符两边词切开,并加上标记

多义词

分词问题:中文,日文,泰文,古希腊文,其他语言的复合词

词组判别

电话号码:用正则表达式匹配

口语语音:er/um

词干提取(stemming):尽量不做。因为:浪费信息,大量语言的语法复杂,领域知识缺乏

句子:90%句号是句子的分界,英文新闻句子典型长度是23个词

 

 

以上是关于《统计自然语言处理基础》容易忘记的知识点的主要内容,如果未能解决你的问题,请参考以下文章

自然语言处理中的概率基础

算法工程师手册(数学基础/统计学习/深度学习/自然语言处理/计算机视觉/工具

第二节 数学基础与语言学基础

NLP入门资料

图文经典统计自然语言处理

2. 自然语言处理预备知识