为什么中文自然语言处理是 NLP 中最难的?

Posted GitChat精品课

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为什么中文自然语言处理是 NLP 中最难的?相关的知识,希望对你有一定的参考价值。

现如今,在更多情况下,我们通过传感器和字节来与机器获得交流,而不是依靠交换情感,那如何让超级智能机器能够和人类正常交流沟通呢?

在人工智能背景技术下,自然语言处理(NLP)技术被越来越多的人看好,并受到重视。

那什么是 NLP?

NLP (NaturalLanguage Processing) 是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,它是能够让人类与智能机器进行沟通交流的重要技术手段。因此,自然语言处理的研究也是充满魅力和挑战的。

NLP 的主要范畴有哪些?

NLP 作为一种人工智能方法,能够处理机器和人类自然语言之间的交互,即 NLP 帮助计算机机器以各种形式使用自然人类语言进行交流,包括进行分析、理解、改变或生成自然语言。主要涉及的范畴如下(维基百科):

中文自动分词

• 词性标注

• 句法分析

• 文本分类

• 信息抽取

• 知识图谱

• 问答系统和自动聊天机器人

• 机器翻译

• 自动摘要

为什么要学 NLP?

人工智能的发展势不可挡,不可否认,当前从事互联网的人们已经制造出了海量的数据,未来还将继续持续,其中包括结构化数据、半结构化和非结构化数据。

笔者发现,对于结构化数据而言,在大数据、云计算技术“上下齐心”的大力整合下,其技术基本趋向成熟和稳定,而半结构化、非结构化的数据,因其自身的复杂性,在当前和未来更多领域应用都具有很大的困难和挑战。

而当前市场对于 NLP 技术人才的需求又非常急切,而且这种状态将持续5-10年,大部分企业需要懂 NLP 技术的人来处理海量非结构数据。

对于大多数人来说,学完一门技术,最终的目的是找到自己满意的工作,包括自己感兴趣的领域、舒适的环境和高薪。

单纯从高薪来看,不仅意味着很多 money,更是来证明自己优秀。下面是 BOSS 直聘上对 NLP 技术人员的待遇需求,可以看到仅仅是NLP开发工程师(当然要懂算法)薪资在30-60k。

为什么中文自然语言处理是 NLP 中最难的?

如何入门中文 NLP ?

作为初学者,笔者当初也是走过很多弯路。其中很重要的一点是,我们常常遇到这样的尴尬。

网上大部分自然语言处理内容都是英文为基础,大多数人先是学好了英语的处理,回头来再处理中文,却发现有很大的不同,这样不仅让中文自然语言处理学习者走了弯路,也浪费了大量时间和精力。

中文的处理比英文复杂的多,网上中文相关资料少之又少,国内纯中文自然语言处理书籍只有理论方面的,却在实战方面比较空缺,这让中文自然语言处理的学习者感到举步维艰,很难下笔。

对于这样的难点,是不是认为中文 NLP 就很难学呢?答案是:非也。相反笔者认为,入门中文 NLP 最快的捷径就是以小数量的实例,边学边实战。 

《中文自然语言处理入门实战》

因此,本场达人课,定位为中文自然语言处理初学者边学边实战的入门级教程,笔者希望从中文实际出发,针对中文语料以小数据量的“简易版”实例,通过实战带大家快速掌握NLP在中文方面开发的基本能力。

课程共19节,目录如下:

课程目录

第01课:中文自然语言处理的完整机器处理流程

第02课:简单好用的中文分词利器 jieba 和 HanLP

第03课:动手实战中文文本中的关键字提取

第04课:了解数据必备的文本可视化技巧

第05课:面向非结构化数据转换的词袋和词向量模型

第06课:动手实战基于 ML 的中文短文本分类

第07课:动手实战基于 ML 的中文短文本聚类

第08课:从自然语言处理角度看 HMM 和 CRF

第09课:一网打尽神经序列模型之 RNN 及其变种 LSTM、GRU

第10课:动手实战基于 CNN 的电影推荐系统

第11课:动手实战基于 LSTM 轻松生成各种古诗

第12课:完全基于情感词典的文本情感分析

第13课:动手制作自己的简易聊天机器人

第14课:基于 HanLP 分词的命名实体提取

第15课:基于 CRF 的中文命名实体识别模型实现

第16课:知识挖掘与知识图谱概述

第17课:Neo4j 从入门到构建一个简单知识图谱

第18课:中文自然语言处理的应用、现状和未来


学完本课程我能收获什么?

学完本课程,按照课程给出的简易版案例,你将知道如何快速进行中文语料的处理,包括分词、关键字提取等,并通过数据可视化手段熟悉和了解你的数据。紧接着通过词袋或者词向量,把文本数据转换成计算机可以计算的矩阵向量。

后续从机器学习简单的有监督分类和无监督聚类入手,到机器情感分析、深度学习神经网络的应用,以及掌握简易聊天机器人和知识图谱的构建过程。

无论是初入 AI 行业的新人,还是想转行成为AI领域的技术工程师,本场达人课带你直观、高效地了解 NLP 开发的流程,全方位提升你的技术实力与思维方式,收获中文自然语言处理方面的技能和知识。

《中文自然语言处理入门实战》

扫码免费试读


以上是关于为什么中文自然语言处理是 NLP 中最难的?的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读77以自然的方式进行自然语言处理:基于面向对象的知识库和多层语法库的NLP工具包

投资组合动态 | 犀语科技受邀参加自然语言处理(NLP)智能技术应用研讨会

在AI创新赛道啃下最硬的骨头:中科凡语抢滩NLP蓝海

学习NLP《自然语言处理综论第2版》中文PDF+英文PDF+对比分析

Python NLP自然语言处理详解

自然语言处理(NLP)的基础难点:分词算法