NLP经典概念总结
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP经典概念总结相关的知识,希望对你有一定的参考价值。
参考技术A the task of converting a raw text file, essentially a sequence of digital bits, into a well-defined sequence of linguistically meaningful units.
文本预处理是NLP中的基本步骤,在这一步骤中,主要完成字符、单词、句子的识别任务。文本预处理又可以分成两个阶段,document triage 和 text segmentation。
Document Triage 将文件转化成定义明确的文本。它包含以下三个步骤:
Step 1: 字符编码识别(character encoding identification)
Step 2: 语言识别(language identification)
Step 3: 文本解剖(text sectioning):识别文本的有用主体部分,去除无用元素,如图表、 链接、html标签等。
Text Segmentation 将文本转化为单词和句子。它包含以下几个部分。
1) word segmentation 也叫tokenization,即分词。
2) text normalization 文本规范化,比如将“Mr.”, “Mr”, "mister", "Mister"规范化成一种形式。
3) Sentence segmentation 即句子划分。
A basic task of lexical analysis is to relate morphological variants to their lemma that lies in a lemma dictionary bundled up with its invariant semantic and syntactic information.
词法分析的一个基本任务是基于词元词典(lemma dictionary)进行词形还原,例如delivers, deliver, delivering, delivered.
词性标注(part-of-speech tagging) 也是词法分析的一个重要应用,常将词性标注的结果作为后续句法分析的输入。
A basic techniques for grammar-driven natural language parsing, that is, analyzing a string of words (typically a sentence) to determine its structural description according to a formal grammar.
句法分析,一种语法驱动的句子解析,包含两个任务,phrase structure parsing 和 dependency parsing。
phrase structure parsing 旨在划分句子的结构化单元。
dependency parsing 旨在挖掘单词之间的语法依存关系。比如,主语、谓语等。
下图展示了两种任务之间的区别。
shallow syntactic parsing 分析句子成分,主谓宾等。
chunker 是一种基于依存句法分析的句子划分方法。
e.g. Santa Claus delivers toy to Child. 可以对此句做出如下的划分。
Action: delivers toy to Child
Initiating Actor: Santa Claus
Business Entity: toy
Responding Actor: Child
Poesio于 2000年在《 Handbook of Natural Language Processing》第一版中曾对语义分析给出了如下定义: The ultimate goal, for humans as well as natural language-processing (NLP) systems, is to understand the utterance—which, depending on the circumstances, may mean incorporating information provided by the utterance into one’s own knowledge base or, more in general performing some action in response to it. ‘Understanding’ an utterance is a complex process, that depends on the results of parsing, as well as on lexical information, context, and commonsense reasoning. . .
to be continued.........
NLP 语义相似度计算 整理总结
更新中
最近更新时间:
2019-12-02 16:55:02
写在前面:
本人是喜欢这个方向的学生一枚,写文的目的意在记录自己所学,梳理自己的思路,同时share给在这个方向上一起努力的同学。写得不够专业的地方望批评指正,欢迎感兴趣的同学一起交流进步。
一、背景
在很多NLP任务中,都涉及到语义相似度的计算,例如:
在搜索场景下(对话系统、问答系统、推理等),query和Doc的语义相似度;
feeds场景下Doc和Doc的语义相似度;
在各种分类任务,翻译场景下,都会涉及到语义相似度语义相似度的计算。
所以在学习的过程中,希望能够更系统的梳理一下这方面的方法。
二、基本概念
1. 向量空间模型
向量空间模型简称 VSM,是 VectorSpace Model 的缩写。在此模型中,文本被看作是由一系列相互独立的词语组成的,若文档 D 中包含词语 t1,t2,…,tN,则文档表示为D(t1,t2,…,tN)。由于文档中词语对文档的重要程度不同,并且词语的重要程度对文本相似度的计算有很大的影响,因而可对文档中的每个词语赋以一个权值 w,以表示该词的权重,其表示如下:D(t1,w1;t2,w2;…,tN,wN),可简记为 D(w1,w2,…,wN),此时的 wk 即为词语 tk的权重,1≤k≤N。关于权重的设置,我们可以考虑的方面:词语在文本中的出现频率(tf),词语的文档频率(df,即含有该词的文档数量,log N/n。很多相似性计算方法都是基于向量空间模型的。
三、语义相似度计算方法
1. 余弦相似度(Cosine)
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
两个向量间的余弦值可以通过使用欧几里得点积公式求出:
余弦相似性θ由点积和向量长度给出,如下所示(例如,向量A和向量B):
这里的分别代表向量A和B的各分量。
问题:表示方向上的差异,但对距离不敏感。
关心距离上的差异时,会对计算出的每个(相似度)值都减去一个它们的均值,称为调整余弦相似度。
代码:
2. 欧式距离
考虑的是点的空间距离,各对应元素做差取平方求和后开方。能体现数值的绝对差异。
代码:
3. 曼哈顿距离(Manhattan Distance)
代码:
3. 明可夫斯基距离(Minkowski distance)
明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。
- 当p==1,“明可夫斯基距离”变成“曼哈顿距离”
- 当p==2,“明可夫斯基距离”变成“欧几里得距离”
- 当p==∞,“明可夫斯基距离”变成“切比雪夫距离”
代码:
3. Dice 系数法(DiceCoefficient)
4. Jaccard 相似系数(Jaccard Coefficient)
四、参考文献
以上是关于NLP经典概念总结的主要内容,如果未能解决你的问题,请参考以下文章