文本挖掘到底是什么鬼？

Posted 2021-04-16 勺海市场研究

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本挖掘到底是什么鬼？相关的知识，希望对你有一定的参考价值。

文本挖掘是从文本数据中获得价值信息的方法，涵盖多个学科，也有多种用途。本文介绍了文本挖掘的主要作用、基本操作步骤以及操作工具。

编者按

编辑|鸭血粉丝多多蒜

转自|量化研究方法

一、什么是文本挖掘

文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。

文本挖掘是一个多学科混杂的领域，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

二、文本挖掘有什么用

1、文本分类

文本分类是一种典型的机器学习方法，一般分为训练和分类两个阶段。文本分类一般采用统计方法或机器学习来实现。

2、文本聚类

文本聚类是一种典型的无监督式机器学习方法，聚类方法的选择取决于数据类型。

首先，文档聚类可以发现与某文档相似的一批文档，帮助知识工作者发现相关知识；其次，文档聚类可以将一类文档聚类成若干个类，提供一种组织文档集合的方法；再次，文档聚类还可以生成分类器以对文档进行分类。

文本挖掘中的聚类可用于：提供大规模文档内容总括；识别隐藏的文档间的相似度；减轻浏览相关、相似信息的过程。

3、信息检索

主要是利用计算机系统的快速计算能力，从海量文档中寻找用户需要的相关文档。

4、信息抽取

信息抽取是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息。

5、自动文摘

利用计算机自动的从原始文档中提取出文档的主要内容。互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长，用户在检索信息的时候，可以得到成千上万篇的返回结果，其中许多是与其信息需求无关或关系不大的，如果要剔除这些文档，则必须阅读完全文，这要求用户付出很多劳动，而且效果不好。

自动文摘能够生成简短的关于文档内容的指示性信息，将文档的主要内容呈现给用户，以决定是否要阅读文档的原文，这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。

自动文摘具有以下特点：

（1）自动文摘应能将原文的主题思想或中心内容自动提取出来。

（2）文摘应具有概况性、客观性、可理解性和可读性。

（3）可适用于任意领域。

按照生成文摘的句子来源，自动文摘方法可以分成两类，一类是完全使用原文中的句子来生成文摘，另一类是可以自动生成句子来表达文档的内容。后者的功能更强大，但在实现的时候，自动生成句子是一个比较复杂的问题，经常出现产生的新句子不能被理解的情况，因此目前大多用的是抽取生成法。

6、自动问答

自动问答是指对于用户提出的问题，计算机可以自动的从相关资料中求解答案并作出相应的回答。自动问答系统一般包括 3 个组成部分：问题分析、信息检索和答案抽取。

7、机器翻译

利用计算机将一种源语言转变为另一种源语言的过程。

8、信息过滤

指计算机系统可以自动的进行过滤操作，将满足条件的信息保留，将不满足条件的文档过滤掉。信息过滤技术主要用于信息安全领域。

9、自动语音识别

自动语音识别就是将输入计算机的自然语言转换成文本表示的书面语。

三、文本挖掘操作步骤

1、获取文本

现有文本数据导入，或者通过如网络爬虫等技术获取网络文本，主要是获取网页html的形式。我们要把网络中的文本获取文本数据库(数据集)。编写爬虫程序，抓取到网络中的信息。