干货 | 概述人工智能和自然语言处理在大数据中的作用

Posted AICUG人工智能用户组

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了干货 | 概述人工智能和自然语言处理在大数据中的作用相关的知识,希望对你有一定的参考价值。

AI技术干货,第一时间送达!

文章由AICUG整理翻译,原文阅读请访问官网

www.aicug.cn后期持续更新敬请关注!

人工智能概述

人工智能指的是制造能够像人类一样执行智能任务的机器。人工智能使用智能执行自动化任务。

“人工智能/人工智能”这个词有两个关键的组成部分。

  • 自动化

  • 智能

人工智能的主要目标

干货 | 概述人工智能和自然语言处理在大数据中的作用

人工智能的不同阶段

第一阶段-机器学习-一套智能系统使用的算法用来从经验中学习。

第二阶段-机器智能-一套机器使用的高级算法用来从经验中学习。如深层神经网络。(人工智能技术目前处于这个阶段。

第三阶段-机器意识-它是自我学习的经验而不需要外部数据。

干货 | 概述人工智能和自然语言处理在大数据中的作用

人工智能的类型

ANI-弱人工智能或专用人工智能-它包括一些基本的/角色的任务,例如由聊天机器人执行的任务,像苹果的SIRI和亚马逊的Alexa。

AGI-通用人工智能-它包含人类水平的任务,例如由Uber自动驾驶汽车,特斯拉自动驾驶仪。它需要机器不断地学习。

ASI-人工超级智能-人工超级智能是指比人类聪明的智能方式。

对系统进行人工智能的最低要求

干货 | 概述人工智能和自然语言处理在大数据中的作用

NLP、AL、ML、DL的定义

AI orArtificial Intelligence —建立可以做智能事情的系统。

NLP orNatural Language Processing —建立能理解语言的系统。它是人工智能的一个子集。

ML orMachine Learning—可以从经验中学习的构建系统。它也是人工智能的一个子集。

NN or Neural Network—生物激发的人工神经元网络。

DL or Deep Learning —建立系统在一组大数据上使用深度神经网络。它是机器学习的一个子集。

干货 | 概述人工智能和自然语言处理在大数据中的作用

什么是自然语言处理?

自然语言处理(NLP)是“机器理解和解释人类语言的能力”

NLP的目标是使计算机/机器在理解语言方面与人类一样智能。

干货 | 概述人工智能和自然语言处理在大数据中的作用

NLP的最终目标是填补人类的沟通 (自然语言)和计算机理解的(机器语言) 的空白。

在进行NLP之前,有三种不同层次的语言分析。

语法—给定文本的哪个部分在语法上是正确的。

语义—给定文本的意义是什么?

语用学—文本的目的是什么?

NLP处理语言的不同方面比如:

音位学—它是语言中声音的系统组织。

形态学—这是一门词语形成及其相互关系的研究。

理解语义分析的NLP方法:

分布的—采用机器学习和深度学习的大规模统计策略。

框架-基础的—句法不同但语义相同的句子在数据结构(框架)中代表了刻板的情况。

在一些处理约定俗成情景的数据结构(框架)中,那些表达方式不同但语义相同的句子被表示出来

理论—这个方法是基于这样的想法:句子是指真正的单词(天空是蓝色的),句子的一部分可以结合起来代表整个意思。

理论处理 这个方法是基于某些句子真的为了是表达字面意思(如 天是蓝的)以及 各个可以直接组合来表达句子含义

交互式学习—它涉及到实用的方法,用户负责教计算机在交互式学习环境中逐步学习语言。

NLP的真正成功之处在于,人们相信他们是在与人交谈而不是电脑。

为什么我们需要NLP?

使用NLP,可以在更短的时间内完成自动化语音和自动文本写作等特定任务。

由于存在大量的数据(文本),为什么我们不使用计算机,使其能够在没有时间的情况下运行一些算法来执行任务。

这些任务包括其他NLP应用程序,如自动文摘(生成给定文本的摘要)和机器翻译(将一种语言翻译成另一种语言)

NLP的过程

如果文本是由语音组成的,则执行语音到文本转换。

自然语言处理的机制包括两个过程:

  • 自然语言理解

  • 自然语言生成

自然语言理解

NLU或NLU orNatural Language Understanding试图理解给定文本的含义。每一个词的本质和结构必须被理解为NLU。为了理解结构,NLU试图解决自然语言中存在的模糊性:

词汇歧义-词汇有多重含义。

句法歧义—具有多个解析树的句子。

语义歧义—具有多重含义的句子。

一词或词,前面提到过,但含义不同。

接下来,每个单词的意思都是通过使用词汇表和语法规则来理解的。

然而,有一些不同的词有相似的意思(同义词)和有不止一个意思的词(多义)。

自然语言生成

它是一个过程,从结构化数据自动生成文本,以有意义的短语和句子。自然语言生成的问题是很难处理的。它是NLP的子集。

自然语言生成分为三个阶段:

1、文本规划——对结构化数据的基本内容进行排序。

2、句子计划——句子由结构化的数据组合而成,代表信息的流动。

3、实现——最后生成语法正确的句子来表示文本。

NLP和文本挖掘或文本分析的区别。

自然语言处理是理解给定的文本含义和结构。

文本挖掘或文本分析是通过模式识别提取文本数据中的隐藏信息的过程。

干货 | 概述人工智能和自然语言处理在大数据中的作用

自然语言处理用于理解给定文本数据的含义(语义),而文本挖掘用于理解给定文本数据的结构(语法)。

举个例子,我在银行附近发现了我的钱包。NLP的任务是理解“银行”是指金融机构或“河岸”。

大数据是什么?

据首席数据科学家Dr. Kirk Borne的说法,大数据定义被描述为大数据是一切,量化和跟踪。

有关大数据的更多细节,请阅读- Ingestion AndProcessing of Data For Big Data and IoT Solutions。

大数据的NLP是下一件大事

现在大约80%的数据都是原始数据。大数据来源于大型组织和企业的信息。例子包括员工信息、公司购买、销售记录、商业交易、组织的前记录、社交媒体等。

虽然人类使用的语言是含糊不清的,并不是由计算机来解释的,但是在NLP的帮助下,这一巨大的非结构化数据可以用来在数据内部进化模式,从而更好地了解数据中包含的信息。

NLP可以用大数据解决商业世界的大问题。无论是零售、医疗、商业还是金融机构。

聊天机器人是什么?

聊天机器人或自动智能代理。

这些智能数字助理用于解决客户查询成本效益,快速的和一致的方式。

他们为什么重要?

聊天机器人对于理解数字客户关怀服务和许多常见的查询是很重要的。

聊天机器人的重要性

当客户服务请求在该区域中特定且高度可预测时,聊天机器人在特定场景中是有用的,管理大量类似的请求和自动响应。

工作聊天

知识库- 包含信息的数据库,用于装备聊天机器人需要响应客户请求查询的信息。

数据存储- 它包含聊天机器人与用户互动的历史。

NLP层- 它把用户的查询(自由形式)转化为可利用的信息,适当的反应。

应用层- 它是应用程序接口,用于与用户交互。

聊天机器人从每一次与用户互动学习。他们匹配用户的查询并使用机器学习知识库中的信息进行交互。

干货 | 概述人工智能和自然语言处理在大数据中的作用

机器学习方法

干货 | 概述人工智能和自然语言处理在大数据中的作用

经典NLP与深度学习NLP

干货 | 概述人工智能和自然语言处理在大数据中的作用

NLP需要深入学习的原因

它使用基于规则的方法,将单词表示为“一个热门”编码向量。

传统的方法侧重于句法表示而不是语义表示。

词袋- 分类模型是无法区分特定的语境。

深度学习的三种能力

表达性- 这项性能代表了一台机器能最大限度接近通用函数。

表达能力-逼近泛函数

可训练性- 到底有多快多好一套DL系统可以学习它的问题。

训练能力-一个dl 系统可以多快多好地完成训练

普遍性- 在没有被训练下,机器能够如何做好执行预测数据。

当然还有其他的功能,还需要深入学习,如解释性,模块化,通用性、延迟、稳定性和安全性考虑。但这些是主要的。

在NLP中,常见的任务是深度学习。

神经网络- NN(提要)

  • 词性标注

  • 标记

  • 命名实体识别

  • 意图提取

递归神经网络(RNN)

  • 机器翻译

  • 问答系统

  • 图像字幕

递归神经网络

  • 解析句子

  • 情绪分析

  • 释义检测

  • 关系分类

  • 对象检测

卷积神经网络(CNN)

  • 句子/文本分类

  • 关系提取和分类

  • 垃圾邮件检测

  • 分类的搜索查询

  • 语义关系抽取

用于日志分析和日志挖掘的NLP。

日志是什么?

来自不同网络设备和硬件的消息集合在时间序列中表示一个日志。日志可以指向硬盘上的文件,也可以通过网络发送到日志收集器。

日志提供了维护和跟踪硬件性能、参数优化、系统紧急和恢复以及应用程序和基础设施优化的过程。

您可能还会经常看到——理解日志分析、日志挖掘和异常检测。

日志分析是什么?

日志分析是从日志中提取信息的过程,考虑到日志文件中消息的不同语法和语义,并通过应用程序解释上下文,对来自不同数据源的日志文件进行对比分析,以发现异常并发现相关性。

什么是日志挖掘?

日志挖掘或日志知识发现是在日志中提取模式和相关性的过程,以揭示知识和预测异常检测,如果有任何内部日志消息。

用于日志分析和日志挖掘的技术。

下面描述了用于执行日志分析的不同技术。

Patternrecognition模式识别—这是一种技术,它包括将日志消息与存储在模式book中的消息进行比较,以过滤出消息。

Normalization归一化—将不同的消息转换成相同的格式,可以对日志消息进行规范化。当不同的日志消息有不同的术语,但是相同的解释来自不同的来源,比如应用程序或操作系统时,就会这样做。

Classification& Tagging 分类和标签—不同日志消息的分类和标记包括对消息的排序,并对它们进行标记,以便以后进行分析。

ArtificialIgnorance人工忽略—这是一种利用机器学习算法来丢弃不感兴趣的日志信息的技术。它还用于检测系统正常工作中的异常。

自然语言处理在日志分析和日志挖掘中的作用

自然语言处理技术广泛应用于日志分析和日志挖掘。

不同的技术,如标记化,堵塞、词干提取、分析等是用来将日志信息转化为结构化的形式。

一旦日志以记录良好的形式存在,日志分析和日志挖掘就可以从信息中发现有用的信息和知识。

由于服务器故障而导致错误日志的示例。

潜入自然语言处理

自然语言处理是一个复杂的领域,是人工智能、计算语言学和计算机科学的交叉点。

开始NLP

用户需要导入包含文本的文件。然后用户应该执行以下步骤进行自然语言处理。

继续阅读在- xenonstack.com/blog全文

活动报名请戳 原文阅读

AICUG人工智能用户组技术交流群:658928282

以上是关于干货 | 概述人工智能和自然语言处理在大数据中的作用的主要内容,如果未能解决你的问题,请参考以下文章

干货丨深度学习实战篇-基于RNN的中文分词探索

智能自然语言处理概述

干货附代码|大数据分析语言DolphinDB脚本语言概述

复旦大学黄萱菁:自然语言处理中的表示学习

汇总推荐深度学习自然语言处理干货笔记汇总

十分钟学习自然语言处理概述