计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿

Posted 2021-04-16 神策数据

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿相关的知识，希望对你有一定的参考价值。

作者简介：

陈运文，达观数据创始人 & CEO，国际计算机学会（ACM）会员。

陈运文博士毕业于复旦大学计算机专业，目前是国际计算机学会（ACM）会员和中国计算机学会（CCF）高级会员，拥有多项国家专利及在国际顶级学术期刊和会议上发表多篇SCI论文，多次代表中国参加国际数据挖掘竞赛并获得 ACM 冠军荣誉。曾担任盛大文学首席数据官（CDO），腾讯文学高级总监、数据中心负责人，百度核心技术研发工程师，在大数据挖掘、用户个性化建模、文本信息处理、推荐和搜索技术等方面有丰富的研发和管理经验。

以下内容根据陈运文在神策2017数据驱动大会人工智能分论坛演讲整理。

文本挖掘的主要目的是从非结构化文本文档中提取有趣的、重要的模式和知识，提供价值。目前中国的文本挖掘企业服务还是比较早期的方向，但是随着人工智能时代的到来，文本挖掘的重要性也逐渐被企业意识到。达观与神策的战略合作，也是构建大数据产业新生态的一次创新尝试。这里主要分享达观在人工智能方向的探索。

▌人工智能与企业大数据：

人工智能和大数据对企业应用的意义

企业希望通过数据挖掘技术提升效率，增加收入降低成本，但是具体如何做？首先要把数据基础打好，尽可能地把数据采集全。其次现在很多挖掘还是人工来用手工的规则和脚本实现，但是我们认为计算机可以自动处理，并且做的更快、更好，减轻人的重复劳动，帮助企业提升效率。

我们有非常多的数据，图象，语音等类型的内容需要操作，识别归类和搜索。人工智能就是把这两者联结在一起，让计算机自动完成从数据的采集到识别搜索以及归类转化。

常见数据类型以及其中文本数据的特点

从企业角度来说，数据并非只有传统意义上的阿拉伯数字，如企业的财务报表，经营状况，APP 日活……除了这些之外还有一些其他数据，比如文字型的数据：新闻内容，商品介绍，用户评论，企业内部各种各样的合同……达观数据就是专业处理文字型数据的企业。

文字数据是信息的抽象提炼。这些数据其实是“一句话浓缩了很多内容”。文字数据的场景非常多，差别也很大。

计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿

让计算机代替人工进行自动化做处理，可以更好地发挥价值，尤其是在一些垂直行业，如人事行业，法律行业，财务行业等，都有大量的文字资料。人工智能可以帮助企业节约大量人力物力成本。

文本挖掘技术的应用现状

搜索引擎本身就是一个文字挖掘的人工智能系统，文字搜索创造了非常大的经济效益。但这个领域机遇与挑战并存，中文的文字处理困难重重，虽然我们每天都在流畅地使用中文，中文不严格的语法和随意的行文特点，为计算机识别中文造成了相当大的难度。

▌人工智能技术三大挑战：字词关系、歧义语义、句式解析

让计算机来做自然语言处理或者挖掘，有什么新的技术挑战？首先来看一些具体的例子。

挑战一：字词关系的处理

汉语往往通过一个词语表达一个基本概念。但是让计算机理解字词之间的关系很困难，因为计算机需要挖掘词语之间的关系。比如说相关词，同义词，甚至还有单词。进一步还要做同义词、反义词、近义词的关系和挖掘，还可能跨语言，分析简称等。

比如“中华人民共和国”是一个大词，它由很多词构成。“共和国”、“中国”、甚至“中”，都和它的意思很接近。那么计算机如何判断“中”是表达中华人民共和国，还是表达河南方言的“好”？

还有局部转义问题。比如说巧克力囊肿是一种常见的肿瘤名称，但是把巧克力拿出来是一个食物，再如球鞋，运动鞋，跑步鞋需要判断什么时候是同义词，什么时候是有差别的。

挑战二：歧义语义的理解

中文复杂的歧义，让计算机需要像人一样阅读文章。

像“咬死了猎人的狗”，这句话一种是主语被省略了，主语可能是一只老虎，它咬死猎人的狗，这时狗是宾语。还有一种情况狗咬死了猎人。需要结合上下文才能理解内容。

这些代表着计算机处理词语歧义，需要很多算法解决文章词法、句法、上下文的理解难题等等。

挑战三：多样化的句式结构的解析

搜索引擎经常需要处理意思相同，但是文字表达方式不一样的情况。这种情况下我们常见的处理方法叫做语义归一化，这也是处理搜索引擎词时经常遇到的问题。常见的做法是通过定位和调整主谓宾定状补等句子元素，生成句法依存树来理解句子结构。

计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿

“达观是技术驱动的企业”这句话中达观是主语还是谓语？通过这样的解析，可以理解这句话的意思。计算机将语言拆开来，揉碎了，像人一样先进地阅读文字。

▌追本溯源：文本挖掘技术发展历程

计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿

1956年的达特矛斯会议，为了实现机器翻译和密码破译，计算机大牛们提出人工智能，并明确了人工智能技术成熟的两个标志性目标：

（1）在国际象棋上可以战胜人类

（2）在机器翻译上能够超越人类

大家都知道了目标一早已经完成。所有的棋类中围棋是最后一个被攻克的。但是目标二仍然未能完全实现，这也可见语言理解的复杂度。

文本挖掘技术发展历程和现阶段流行方法

关于自然语言处理，学术界有两个派别：

1. 理性派，结构主义，认为所有语言其实都有潜在内生结构，都是有内在的语法。

2. 经验派，功能主义，认为只要完成某一个功能就可以了，计算机完全不需要理解人说什么。

早期人工智能刚刚提出来，符号主义流行。60 年代时用了很多的词典和符号规则做自然语言的处理，但是后来发现这样翻译走不通。在 70-80 年代，在语法规则的基础上增加了语言模型，当时很多语言专家做自然语言处理时遇到非常严峻的挑战，因为语言模型并没有严格的规律可言，很多表达都是习惯使然。

90年代开始，统计学习模型异军突起，当前大量自然语言处理的应用都是基于统计学习的模型。能够讲大数据也是因为现在已经积累的文本数据非常多，我们每天在各种平台上看到、写下的文字数据都可以成为计算机训练的语料，通过训练能让计算机发现语言的规律。

2010 年迎来了深度学习的浪潮。深度学习是经验派功能主义的典型表现。近几年知识图谱非常流行，它带有结构，所以是理性派结构主义的表现。目前很多主流方法是两者做结合，统计学习方法加上一些结构，才能够更好的理解、处理文字内容。

文本结构解析的三个层次

现在流行的方法从结构的角度来说分三个层次：

1.词语级 2.句法级 3.篇章级

词汇级有很多具体的模块开发，结构分析包括句子结构之间的关系等。想想我们学汉语的时候先认识基本字，再找词。在汉语里面单词表现很弱，两个字或者三个字才构成一个有表达力的词。组词之后是造句，很多句话构成了一篇作文。同样，让计算机来阅读文字从结构角度来说是相似的，先让计算机看字、词，然后理解句子的意思，最后理解整篇文章每个段落的含义。

计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿

知识图谱的作用是沉淀领域知识，利用结构化的背景知识理解文本语义。例如律师在阅读法律的文章时，通过积累的律行业相关知识，建立起行业领域知识的知识图谱，完成文字阅读。知识图谱的核心在于构建｛实体E - 属性A - 关系R｝三元素。

确保文本挖掘技术效果的两个要点

要点 1：因地制宜，针对特定应用场景定制语言模型

虽然用的都是汉语或英语，但在在不同的场景需要的方法有很大不同。例如：让计算机自动提取合同文本信息，自动判断合同文本中关联的要素和法律风险。在做具体的专家文本判别时，需要建立这些具体的行业文本的知识库。

目前很多企业将文本分析技术应用于评论分析。企业每天收到网上用户留下的成千上万条评论意见，其中可能有是竞争对手的情报信息和评论信息，且通常有大量的省略和简称，如小米手机第六代通常说米6，没有专业领域知识很难解读。

口语和书面语的处理方式也需要区别对待，书面语是常写在内部文件中，但是通常弹幕、网络评论都是口语表达。

要点 2：持续的学习能力，确保泛化能力始终提升

机器学习的好处是可以通过迭代持续优化。在文本挖掘中很多企业的挖掘都是依照规则的方法，但长期来看这种方法泛化能力或自主学习能力不够。通过机器学习提升挖掘的效果，是计算机处理模块很重要的能力。

▌文本挖掘基础性应用类型划分

计算机不像人一样真的可以理解文字，很多时候计算机输入一段字库，输出相应的结构。一边是编码，一边是解码。

计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿

文本挖掘基础应用的类型可以分为四大类：

抽取：计算机自动解析文本，需要识别关键要素。例如，当计算机阅读一份法律合同文书时，能够识别里面的判决书编号、被告人、辩护人、判决依据等等，并从文本中提取出关键要素进行结构化处理。抽取对于文本密集型产业尤其有价值。

划分：举一个应用的案例，企业拿到大量客户的意见，需要判断意见的好坏，不同的意见需要后续给哪个部分负责处理，这些是典型评论意见观点的识别和观点划分的应用。

转换：计算机需要进行语言的转换，把文本转换成更正确的语言方式。例如下面这份刑事裁定书里面有很多不符合语法习惯的地方，“政治权力”“云南省趋近市”这些都是错误的表达，计算机能智能的帮人们发现并修改错误。

计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿

合成：计算机写作也许是未来比较热门的行业。目前的写作还是以模板为主，但未来我们希望除了模板外，计算机还可以帮助人们修改润色文章。甚至可以摆脱模板的方式，通过“阅读”大量的文字来实现机器写作。

▌文本挖掘技术的延伸应用

企业的一些应用需求后，还可以进一步延伸。比如大家每天都在用的搜索和推荐都是进一步的应用。

搜索其实是非常典型的自然语言处理的应用。它的核心技术有两部分，其一是对文本语义的深入理解，第二是解决搜索时间的性能问题。通常索引资料库很大，可能有上千亿的内容，在搜索的过程中我们不需要计算机一个一个找，而是在很短的时间内，用零点几秒解决响应的问题。这些需要用特殊的数据结构来完成。

另外，在搜索时如何让计算机帮助人来匹配更多优质资源，需要做更多语义的延伸。同一句话不同的人可以用不同的语言方式来表达。计算机帮助人做语义的扩展，需要了解词和词，句子和句子之间的关系。

除搜索之外，个性化推荐也是语义理解的重要的应用。做内容和人的连接时，更好的完成用户画像需要分析出哪一个人之前看过这些内容，它的语义如何。文本挖掘技术在提升企业的运营质量方面发挥了很大作用，达观数据的个性化推荐引擎在帮助企业用户提升点击率、留存以及关键指标上都有着明显的效果。

达观数据和神策数据的合作，旨在优化企业级大数据服务，挖掘数据价值，推动产品层面的深度融合。未来双方也将共同为大数据 + 人工智能创造价值。

以上是关于计算机如何读懂“人话”？五分钟了解文本挖掘那些事儿的主要内容，如果未能解决你的问题，请参考以下文章