文本挖掘与分析概述
Posted 大数据产品设计与运营
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘与分析概述相关的知识,希望对你有一定的参考价值。
在现实世界中,知识不仅以传统数据库中的结构化数据的形式出现,还以书籍、研究报告、新闻报道、WEB页面及电子邮件等诸多形式呈现,面对以这些形式出现的、浩如烟海的信息源,我们的阅读能力、信息检索能力等往往是难以应付的,这时就需要借助计算机的处理技术来帮助我们快速获取这些数据源中隐藏的有用信息,文本挖掘与分析技术正是在这种背景下应运而生的。
文本挖掘与分析技术可以将无结构的原始文本转化为结构化的计算机可以识别处理的信息,并能提取其中有用的信息和关键的规则,是帮助我们快速从文本数据中获取知识的利器。
以下从基本概念、主要内容与操作步骤对文本挖掘与分析做个简要介绍:
一、文本挖掘与分析的基本概念
所谓文本挖掘与分析是指从文本数据中抽取有效、有用、可理解的有价值知识,并且利用这些知识更好地组织信息的过程。具体说来,文本挖掘与分析以文本数据为分析对象,利用智能算法,并结合文字处理技术,从大量文本数据中寻找各种隐含的知识。
介绍几个与文本挖掘关联度较高的概念:
1、文本数据:是指字符型数据,这种类型的数据是不能参与算术运算的。比如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其它可输入的字符,这些都属于文本数据。
2、分词:所谓分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。
3、中文分词:是指将一个汉字序列切分为若干个单独的词,中文分词是对一段中文或文章进行文本挖掘与分析的基础。
4、词性标注:在文本挖掘时经常涉及到词性标注,所谓词性标注是指根据句子所在的上下文语境对句中的每个词确定一个最合适的词性标记。
5、词性:是一个词的语法属性,是依据词在组合中的语法功能确定的,词性是给一个词归类的依据,比如“詹姆斯很强大”中“詹姆斯”是名词,“强大”是形容词。
以上是关于文本挖掘与分析概述的主要内容,如果未能解决你的问题,请参考以下文章