第1章 NLP基础
Posted yefan19
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第1章 NLP基础相关的知识,希望对你有一定的参考价值。
一、NLP的研究任务
- 机器翻译;
- 情感分析;
- 智能问答;
- 文摘生成;
- 文本分类:采集各种文章,进行主题分析,从而进行自动分类;
- 舆论分析;
- 知识图谱:知识点相互连接而成的语义网络。
二、基本术语
- 分词;
- 词性标注:对动词、名词、形容词等进行词性标注。eg:我/r 爱/v 北京/ns 天安门/ns;
- 命名实体识别:从文本中识别具有特定类别的实体(通常是名词),eg:人名、地名、机构名、专有名词(针对技术知识图谱的话,应该实体术语专有名词吧);
- 句法分析:是一种基于规则的专家系统。目的是分析句子中各个成分的依赖关系。往往结果是一棵句法分析树,eg:“小李是小杨的班长”,“小杨是小李的班长”,这两句话词袋模型完全相同,的那句法分析可以分析出两个句子中的主从关系;
- 指代消解:中文中代词出现频率高,通过指代消解,将指向同一实体的代词进行合并到所属的名词中,将代词消解掉;
- 情感识别:本质上是分类问题,经常用于舆情分析。情感一般分为三类,正面、负面和中性。通常可以基于词袋模型+分类器,或词向量模型+RNN,后者准确率略高;
- 纠错:自动纠错在搜索技术以及输入法中利用较多。纠错方法:N-Gram、字典树、有限状态机等方法;(注:什么是有限状态机?有限状态机是一种用来进行对象行为建模的工具,其作用主要是描述对象在它的生命周期内所经历的状态序列,以及如何响应来自外界的各种事件。在各种行为或条件下从某一状态转换到另一状态,见下图,有空进行扩充学习)
-
问答系统:类似机器人的人工智能系统。往往需要辅助工具:语音识别、合成,自然语言理解、知识图谱等多项技术配合。
三、知识结构
其中和专利分析比较相关的包括:句法语义分析、关键词抽取和文本挖掘。
四、NLP的几个层面
- 词法分析:包括分词和词性标注;
- 句法分析:分析句法结构。三种主流方法:短语结构句法体系,识别出句子中的短语结构以及短语之间的层次句法关系(应该可以适用于挖掘文本中的名词间的总分关系);依存结构句法分析,识别句子中词与词之间的相互依赖关系,术语浅层句法分析,过程简单,但提供的信息少;深层文法句法分析,太复杂,不适合大规模数据。
- 语义分析:目的是理解句子表达的真实语义。语义角色标注是目前较成熟的浅层语义分析技术。语义角色标注一般在句法分析的基础上完成。出于机器学习模型复杂度、效率考虑,NLP系统通常采用级联的方式,即分词、词性标注、句法分析、语义分析分别训练模型。通过两个以上的联合模型结果,得到高质量的分析结果。
五、参考书籍
《Python自然语言处理实战》
以上是关于第1章 NLP基础的主要内容,如果未能解决你的问题,请参考以下文章