信息提取和文本挖掘有啥区别?

Posted

技术标签:

【中文标题】信息提取和文本挖掘有啥区别?【英文标题】:What is the difference between Information Extraction and Text Mining?信息提取和文本挖掘有什么区别? 【发布时间】:2013-06-19 07:56:05 【问题描述】:

这看起来很容易。但我很困惑。

文本挖掘和信息提取有什么区别?

【问题讨论】:

这看起来像哲学问题,谷歌有很多答案。 也许this 可以提供帮助。 【参考方案1】:

信息提取

(IE) 是从非结构化和/或半结构化机器可读文档中自动提取结构化信息的任务。在大多数情况下,此活动涉及通过自然语言处理 (NLP) 处理人类语言文本。多媒体文档处理中的最新活动,如自动注释和从图像/音频/视频中提取内容,可以看作是信息提取。

文本挖掘

是从信息资源集合中获取与信息需求相关的信息资源的活动。搜索可以基于元数据或全文索引。

与信息检索相比,文本挖掘是一个广阔的领域。典型的文本挖掘任务包括文档分类、文档聚类、构建本体、情感分析、文档摘要、信息提取等。 而信息检索通常处理抓取、解析和索引文档,检索文档。

Source

【讨论】:

【参考方案2】:

首先让我们看一下这两个重要词的含义。

文本挖掘是通过对各种文本资源的自动分析,自动发现以前未知的新信息。它首先从文本资源中提取事实和事件,然后形成新的假设,进一步探索通过传统的数据挖掘和数据分析方法。

信息提取更多的是 NLP(自然语言处理)和机器学习问题,您可以训练机器从原始文本中提取隐藏信息。

所以区别可以说是 - 与信息提取相比,文本挖掘是一个广阔的领域。 文本挖掘关注在非结构化文本中寻找模式。信息提取(IE)的相关任务是定位自然语言文档中的特定项目

【讨论】:

以上是关于信息提取和文本挖掘有啥区别?的主要内容,如果未能解决你的问题,请参考以下文章

文本分类

文本分类

文本挖掘模型:文本特征提取

使用Python的文本挖掘的特征选择/提取

文本挖掘模型:本特征提取

用R进行网站评论文本挖掘聚类