计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿
Posted 神策数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿相关的知识,希望对你有一定的参考价值。
作者简介:
陈运文,达观数据创始人 & CEO,国际计算机学会(ACM)会员。
陈运文博士毕业于复旦大学计算机专业,目前是国际计算机学会(ACM)会员和中国计算机学会(CCF)高级会员,拥有多项国家专利及在国际顶级学术期刊和会议上发表多篇SCI论文,多次代表中国参加国际数据挖掘竞赛并获得 ACM 冠军荣誉。曾担任盛大文学首席数据官(CDO),腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师,在大数据挖掘、用户个性化建模、文本信息处理、推荐和搜索技术等方面有丰富的研发和管理经验。
以下内容根据陈运文在神策2017数据驱动大会人工智能分论坛演讲整理。
文本挖掘的主要目的是从非结构化文本文档中提取有趣的、重要的模式和知识,提供价值。目前中国的文本挖掘企业服务还是比较早期的方向,但是随着人工智能时代的到来,文本挖掘的重要性也逐渐被企业意识到。达观与神策的战略合作,也是构建大数据产业新生态的一次创新尝试。这里主要分享达观在人工智能方向的探索。
▌人工智能与企业大数据:
人工智能和大数据对企业应用的意义
企业希望通过数据挖掘技术提升效率,增加收入降低成本,但是具体如何做?首先要把数据基础打好,尽可能地把数据采集全。其次现在很多挖掘还是人工来用手工的规则和脚本实现,但是我们认为计算机可以自动处理,并且做的更快、更好,减轻人的重复劳动,帮助企业提升效率。
我们有非常多的数据,图象,语音等类型的内容需要操作,识别归类和搜索。人工智能就是把这两者联结在一起,让计算机自动完成从数据的采集到识别搜索以及归类转化。
常见数据类型以及其中文本数据的特点
从企业角度来说,数据并非只有传统意义上的阿拉伯数字,如企业的财务报表,经营状况,APP 日活……除了这些之外还有一些其他数据,比如文字型的数据:新闻内容,商品介绍,用户评论,企业内部各种各样的合同……达观数据就是专业处理文字型数据的企业。
文字数据是信息的抽象提炼。这些数据其实是“一句话浓缩了很多内容”。文字数据的场景非常多,差别也很大。
让计算机代替人工进行自动化做处理,可以更好地发挥价值,尤其是在一些垂直行业,如人事行业,法律行业,财务行业等,都有大量的文字资料。人工智能可以帮助企业节约大量人力物力成本。
文本挖掘技术的应用现状
搜索引擎本身就是一个文字挖掘的人工智能系统,文字搜索创造了非常大的经济效益。但这个领域机遇与挑战并存,中文的文字处理困难重重,虽然我们每天都在流畅地使用中文,中文不严格的语法和随意的行文特点,为计算机识别中文造成了相当大的难度。
▌人工智能技术三大挑战:字词关系、歧义语义、句式解析
让计算机来做自然语言处理或者挖掘,有什么新的技术挑战?首先来看一些具体的例子。
挑战一:字词关系的处理
汉语往往通过一个词语表达一个基本概念。但是让计算机理解字词之间的关系很困难,因为计算机需要挖掘词语之间的关系。比如说相关词,同义词,甚至还有单词。进一步还要做同义词、反义词、近义词的关系和挖掘,还可能跨语言,分析简称等。
比如“中华人民共和国”是一个大词,它由很多词构成。“共和国”、“中国”、甚至“中”,都和它的意思很接近。那么计算机如何判断“中”是表达中华人民共和国,还是表达河南方言的“好”?
还有局部转义问题。比如说巧克力囊肿是一种常见的肿瘤名称,但是把巧克力拿出来是一个食物,再如球鞋,运动鞋,跑步鞋需要判断什么时候是同义词,什么时候是有差别的。
挑战二:歧义语义的理解
中文复杂的歧义,让计算机需要像人一样阅读文章。
像“咬死了猎人的狗”,这句话一种是主语被省略了,主语可能是一只老虎,它咬死猎人的狗,这时狗是宾语。还有一种情况狗咬死了猎人。需要结合上下文才能理解内容。
这些代表着计算机处理词语歧义,需要很多算法解决文章词法、句法、上下文的理解难题等等。
挑战三:多样化的句式结构的解析
搜索引擎经常需要处理意思相同,但是文字表达方式不一样的情况。这种情况下我们常见的处理方法叫做语义归一化,这也是处理搜索引擎词时经常遇到的问题。常见的做法是通过定位和调整主谓宾定状补等句子元素,生成句法依存树来理解句子结构。
“达观是技术驱动的企业”这句话中达观是主语还是谓语?通过这样的解析,可以理解这句话的意思。计算机将语言拆开来,揉碎了,像人一样先进地阅读文字。
▌追本溯源:文本挖掘技术发展历程
1956年的达特矛斯会议,为了实现机器翻译和密码破译,计算机大牛们提出人工智能,并明确了人工智能技术成熟的两个标志性目标:
(1)在国际象棋上可以战胜人类
(2)在机器翻译上能够超越人类
大家都知道了目标一早已经完成。所有的棋类中围棋是最后一个被攻克的。但是目标二仍然未能完全实现,这也可见语言理解的复杂度。
文本挖掘技术发展历程和现阶段流行方法
关于自然语言处理,学术界有两个派别:
1. 理性派,结构主义,认为所有语言其实都有潜在内生结构,都是有内在的语法。
2. 经验派,功能主义,认为只要完成某一个功能就可以了,计算机完全不需要理解人说什么。
早期人工智能刚刚提出来,符号主义流行。60 年代时用了很多的词典和符号规则做自然语言的处理,但是后来发现这样翻译走不通。在 70-80 年代,在语法规则的基础上增加了语言模型,当时很多语言专家做自然语言处理时遇到非常严峻的挑战,因为语言模型并没有严格的规律可言,很多表达都是习惯使然。
90年代开始,统计学习模型异军突起,当前大量自然语言处理的应用都是基于统计学习的模型。能够讲大数据也是因为现在已经积累的文本数据非常多,我们每天在各种平台上看到、写下的文字数据都可以成为计算机训练的语料,通过训练能让计算机发现语言的规律。
2010 年迎来了深度学习的浪潮。深度学习是经验派功能主义的典型表现。近几年知识图谱非常流行,它带有结构,所以是理性派结构主义的表现。目前很多主流方法是两者做结合,统计学习方法加上一些结构,才能够更好的理解、处理文字内容。
文本结构解析的三个层次
现在流行的方法从结构的角度来说分三个层次:
1.词语级 2.句法级 3.篇章级
词汇级有很多具体的模块开发,结构分析包括句子结构之间的关系等。想想我们学汉语的时候先认识基本字,再找词。在汉语里面单词表现很弱,两个字或者三个字才构成一个有表达力的词。组词之后是造句,很多句话构成了一篇作文。同样,让计算机来阅读文字从结构角度来说是相似的,先让计算机看字、词,然后理解句子的意思,最后理解整篇文章每个段落的含义。
知识图谱的作用是沉淀领域知识,利用结构化的背景知识理解文本语义。例如律师在阅读法律的文章时,通过积累的律行业相关知识,建立起行业领域知识的知识图谱,完成文字阅读。知识图谱的核心在于构建{实体E - 属性A - 关系R}三元素。
确保文本挖掘技术效果的两个要点
要点 1:因地制宜,针对特定应用场景定制语言模型
虽然用的都是汉语或英语,但在在不同的场景需要的方法有很大不同。例如:让计算机自动提取合同文本信息,自动判断合同文本中关联的要素和法律风险。在做具体的专家文本判别时,需要建立这些具体的行业文本的知识库。
目前很多企业将文本分析技术应用于评论分析。企业每天收到网上用户留下的成千上万条评论意见,其中可能有是竞争对手的情报信息和评论信息,且通常有大量的省略和简称,如小米手机第六代通常说米6,没有专业领域知识很难解读。
口语和书面语的处理方式也需要区别对待,书面语是常写在内部文件中,但是通常弹幕、网络评论都是口语表达。
要点 2:持续的学习能力, 确保泛化能力始终提升
机器学习的好处是可以通过迭代持续优化。在文本挖掘中很多企业的挖掘都是依照规则的方法,但长期来看这种方法泛化能力或自主学习能力不够。通过机器学习提升挖掘的效果,是计算机处理模块很重要的能力。
▌文本挖掘基础性应用类型划分
计算机不像人一样真的可以理解文字,很多时候计算机输入一段字库,输出相应的结构。一边是编码,一边是解码。
文本挖掘基础应用的类型可以分为四大类:
抽取:计算机自动解析文本,需要识别关键要素。例如,当计算机阅读一份法律合同文书时,能够识别里面的判决书编号、被告人、辩护人、判决依据等等,并从文本中提取出关键要素进行结构化处理。抽取对于文本密集型产业尤其有价值。
划分:举一个应用的案例,企业拿到大量客户的意见,需要判断意见的好坏,不同的意见需要后续给哪个部分负责处理,这些是典型评论意见观点的识别和观点划分的应用。
转换:计算机需要进行语言的转换,把文本转换成更正确的语言方式。例如下面这份刑事裁定书里面有很多不符合语法习惯的地方,“政治权力”“云南省趋近市”这些都是错误的表达,计算机能智能的帮人们发现并修改错误。
合成:计算机写作也许是未来比较热门的行业。目前的写作还是以模板为主,但未来我们希望除了模板外,计算机还可以帮助人们修改润色文章。甚至可以摆脱模板的方式,通过“阅读”大量的文字来实现机器写作。
▌文本挖掘技术的延伸应用
企业的一些应用需求后,还可以进一步延伸。比如大家每天都在用的搜索和推荐都是进一步的应用。
搜索其实是非常典型的自然语言处理的应用。它的核心技术有两部分,其一是对文本语义的深入理解,第二是解决搜索时间的性能问题。通常索引资料库很大,可能有上千亿的内容,在搜索的过程中我们不需要计算机一个一个找,而是在很短的时间内,用零点几秒解决响应的问题。这些需要用特殊的数据结构来完成。
另外,在搜索时如何让计算机帮助人来匹配更多优质资源,需要做更多语义的延伸。同一句话不同的人可以用不同的语言方式来表达。计算机帮助人做语义的扩展,需要了解词和词,句子和句子之间的关系。
除搜索之外,个性化推荐也是语义理解的重要的应用。做内容和人的连接时,更好的完成用户画像需要分析出哪一个人之前看过这些内容,它的语义如何。文本挖掘技术在提升企业的运营质量方面发挥了很大作用,达观数据的个性化推荐引擎在帮助企业用户提升点击率、留存以及关键指标上都有着明显的效果。
达观数据和神策数据的合作,旨在优化企业级大数据服务,挖掘数据价值,推动产品层面的深度融合。未来双方也将共同为大数据 + 人工智能创造价值。
以上是关于计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿的主要内容,如果未能解决你的问题,请参考以下文章