巴别塔之二-自然语言处理概念解析

Posted 无名文字

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了巴别塔之二-自然语言处理概念解析相关的知识,希望对你有一定的参考价值。

   

 

一、自然语言处理的定义及应用方向

    1、基本定义

一般来说,语言可以分为两种。一种被称为自然语言(NaturallanguageNL)。这种往往指的就是我们平时说话,写作,沟通和交流所用的语言。比如汉语,英语,德语,阿拉伯语。另外一种被称为形式语言,就是用数学,或者计算机可以精确处理的语言。这里头有两种最为典型的案例。第一个是任何计算机编程语言。第二个则是各类数学,理论物理,物理化学,理论经济,计算心理学,金融学的证明和推导。

自然语言处理(NaturalLanguage Processing,简称NLP),通俗的讲,就是用计算机算法来处理以及生成人类所用的语言(比如英语,汉语,德语,阿拉伯语等等)。它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。

2、研究内容

从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等,具体应用方向有以下几个方面

1)句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。

2)信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。

3)文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。

4)信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用句法语义分析、信息抽取、文本挖掘的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。

5)机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。

6)问答系统:对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。

7)对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。

    二、机器翻译的定义、发展历程,主流机器翻译技术的应用及其特点

机器翻译(MT)是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。

机器翻译都是通过研究源语言与目标语言的语言学信息来实现的,最初是基于词典和语法生成翻译,这被称为基于规则的机器翻译(RBMT)。随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT)统计机器翻译的基本原理是:从语料库大量的翻译实例中自动学习翻译知识,然后利用这些翻译知识自动翻译其他句子。比如,为了让机器顺利实现中英文之间的翻译,首先需要收集大量中英文双语句对,然后使用计算机从这些双语句对中统计并学习翻译知识。

以中英翻译方向为例,系统首先要掌握中英文之间词、短语、语法结构的翻译知识。有了这些翻译知识之后,系统就会把这个中文句子切分成各种词、短语、或者语法结构的组合(这个过程中,有成千上万种切分可能,每个单元也有多种翻译备选),然后分别翻译每一个单元,最后组合起来形成最终的英文翻译。

2016年以来兴起的所谓神经网络机器翻译neural machine translationNMT),就是通过使用计算机神经网络技术,利用人工智能模仿大脑神经元进行语言翻译。严格上来说,神经机器翻译技术与传统规则方法和统计机器翻译方法本质上来说完全是两个思路和属于两个不同流派。简单来说,规则方法和SMT技术在一定程度上是在模拟我们进行翻译外文资料的过程。比如,在SMT中可以假设翻译以词或者短语为单位,翻译过程可以考虑句法结构等,实现从小到大片段翻译过程。对于我们来说,非常容易理解规则方法和SMT方法的整个翻译过程。但SMT方法和译员进行人工翻译也存在一个明显不同之处,那就是译员做翻译时首先阅读输入句子进行理解后进行翻译,有点类似意译,目的是雅译,至少是达译。但机器翻译中采用的规则方法和SMT方法要求遵循对原句的忠实度,有点类似于信译,所以在真实应用中对于一些句法不太规范或者省略严重的句子,这两种机器翻译的方法往往表现不佳,因为保证对原文忠实度前提下很难实现雅译,很多时候只有意译方式才有可能达到雅译水平。

神经机器翻译技术走的是另外一条路,它采用神经网络直接实现两个句子之间的自动翻译,完全没有规则方法和SMT方法的从小片段组装成大片段翻译的过程,因此一直为人诟病在译文的自动生成过程的不可解释性。从翻译结果上来看,神经机器翻译的翻译结果最大特点就是流畅,特别像母语人说的话,因为NMT解码本质上是携带源语信息的目标语语言模型。另外,NMT系统对主语省略的句子翻译中省略部分补充能力比SMT强,对一些不太像书面语、句法结构不是非常规范的真实数据翻译效果也明显好于SMT。还有,对一个输入句子修改一两个词汇后,SMT的翻译结果变化可能会很大,但NMT翻译结果相对来说变化不太大,也许修改一两个词对于整个句子表示影响有限。如果说SMT属于直译和信译的话,NMT也许可以属于意译和半达译、半雅译

目前SMTNMT其实各有优缺点,也代表机器翻译技术研究的两个不同时代。SMT不会因为NMT被完全抛弃掉,其实SMT有一个优点是译文的生成过程非常清晰,即原文与译文具有很强的显性联系。NMT的最大优点是译文流畅度很高,但问题是原文与译文之间缺乏很好的显性联系。中译语通现有机器翻译引擎的解决方案就是融合SMTNMT两种翻译技术,优势互补以便改善翻译的质量。

    三、自然语言处理常见基本概念

1、语料:即语言材料。语料是语言学研究的内容,是语言的记录,是研究语言和翻译的重要素材。

按照一定的语言原则,运用随机抽样方法收集自然出现的连续的语言,运用文本或话语片段建成的具有一定容量的大型电子文本库就是一个语料库。语料库主要分为三类:可比语料库、多语语料库和平行语料库。多语语料库用于研究翻译文本的风格,为研究翻译文本提供有效的参考系数;可比语料库主要用于研究深层次的翻译问题,如翻译规范性等;平行语料库,主要有词语级别、句子级别和段落级别平行语料库,其主要应用于翻译实践、翻译教学、翻译研究、译员培训、词典编撰和机器翻译等领域,是与翻译领域最接近的一种语料库。

双语平行语料库与其他语料库最大区别在于所收集的语料类型和所涉及的语料处理过程。双语平行语料库收集的都是原语与目的语一一对应的双语语料,包括词词对应,句句对应,段段对应或是篇篇对应,有些平行语料库需要句子长度对应的语料。语料对应程度和翻译质量将直接影响双语平行语料库的质量和建设进程。双语平行语料库除了要对所收集的语料精挑细选,进行格式和标记处理,还需译员对语料进行最为重要的对齐处理。

2、语音语料:语音语料是将语音进行标记形成的,是语音与文字的结合。译员将语音数据进行翻译,形成文本资料。

3、双语平行语料(例如,相对应的一句中文、一句英文):主要用于训练基于神经网络算法的机器翻译引擎,呈现的方式以一句中文、一句英文的形式体现。

4、单语语料:单语语料指仅包含一种语言的语料。例如:从网站上爬取的数据,采用算法进行断句,与双语平行语料相比,单语语料价值相对较低,采集和整理成本相对双语平行语料较低。以英语为例,大规模英语单语语料不仅是对中英双语语料的重要补充,同时由于其来源是纯正的英语,对改善译句的质量及规范也会起到很好的效果。

单语语料在基于统计机器翻译系统中可用于语言模型构建,语言模型用来评估和校正译文的流利度,在神经网络机器翻译系统中,在双语语料中找不到匹配或相似的句子、片断时,在单语语料中一定能找到,这样就提升了神经网络机器翻译系统的性能。

5、结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据),简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。

6、与之相对,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用。

7、所谓半结构化数据。就是介于结构化数据(如关系型数据库、面向对象数据库中的数据)和非结构化数据(如声音、图像文件等)之间的数据,XMLhtml文档就属于半结构化数据。它通常是自描写叙述的,数据的结构和内容混在一起,没有明显的区分。

结构化数据详实地记录了企业生产经营过程,而非结构化数据、半结构化数据需要先进行数据清洗(按照一定规则过滤不符合要求的数据,例如不完整的数据、重复的数据、错误的数据),后经过结构化(以文章为例,将文章中的时间、地点、人物、事件进行识别抽取后建立关系)后才能被有效利用。结构化数据是由企业拥有和控制,可直接对外进行出售,其经济价值可以得到量化,因此满足无形资产的定义。半结构化、非结构化的数据无法被有效利用,也就无法产生经济利益的流入,故无法归为数据资产。

8、知识图谱

知识图谱是由Google公司在2012年提出来的一个新的概念。从学术的角度,我们可以对知识图谱给一个这样的定义:知识图谱本质上是语义网络知识库。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点和边组成。知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图,知识图谱提供了关系的角度去分析问题的能力。

在知识图谱里,我们通常用实体来表达图里的节点、用关系来表达图里的。实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是朋友等。

现实世界中的很多场景非常适合用知识图谱来表达。比如一个社交网络图谱里,我们既可以有的实体,也可以包含公司实体。人和人之间的关系可以是朋友,也可以是同事关系。人和公司之间的关系可以是现任职或者曾任职的关系。

知识图谱如基于新闻类数据生成,具有较强的时效性,故其价值可能随着时间的推移而降低,可能存在减值的风险。垂直领域的知识图谱一经生成,就脱离了原始未经加工的数据。




以上是关于巴别塔之二-自然语言处理概念解析的主要内容,如果未能解决你的问题,请参考以下文章

AI产品经理必须了解自然语言处理基础知识

几种编程语言的优缺点

编程语言年度观赏大戏,来看看内部撕X,你站谁?

Spark2.0 特征提取转换选择之二:特征选择文本处理,以中文自然语言处理(情感分类)为例

编程语言年度观赏大戏,来看看内部撕X,你站谁?

华为 HarmonyOS 的野心比你想象中更大