Data Mining Tutorial -- 简明译文Part 03

Posted ltmkchgs

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Data Mining Tutorial -- 简明译文Part 03相关的知识,希望对你有一定的参考价值。

第三章  Issues

 

数据挖掘并不是一件容易的事,因为所使用的算法会变得非常复杂,并且数据并不总是在一个地方可用。它需要从各种异构数据源集成。这些因素也会产生一些问题。在本教程中,我们将讨论有关的主要问题:

  • 挖掘方法和用户交互
  • 性能问题
  • 各种数据类型问题

下图描述了主要问题,

技术分享图片

 

 

挖掘方法和用户交互问题

 

它涉及以下几类问题:

在数据库中挖掘不同类型的知识 - 不同的用户可能对不同类型的知识感兴趣。因此,数据挖掘必须涵盖广泛的知识发掘任务。

在多个抽象层次上交互式挖掘知识 - 数据挖掘过程需要是交互式的,因为它允许用户集中搜索模式,根据返回的结果提供和优化数据挖掘请求。

结合背景知识 - 为了指引发掘过程和表述发现的模式,可以使用背景知识。背景知识不仅可以用简洁的术语表达发现的模式,而且可以用于多个抽象层次。

数据挖掘查询语言和特定的数据挖掘 - 数据挖掘查询语言允许用户描述特定的挖掘任务,与数据仓库查询语言集成并优化,以实现高效灵活的数据挖掘。

处理有杂质的或不完整的数据 - 在挖掘数据规律时,需要使用数据清洗方法来处理噪声和不完整的对象。如果数据清理方法不存在,那么发现的模式的准确性将很差。

模式评估 - 发现的模式应该是有趣的,因为它们代表了常识或缺乏新意。

 

 

性能问题

 

可能存在与性能相关的问题,例如:

数据挖掘算法的效率和可扩展性 - 为了有效地从数据库中的大量数据中提取信息,数据挖掘算法必须高效且可扩展。

并行,分布式,增量式的挖掘算法 - 诸如数据库的庞大规模,数据的分布广泛以及数据挖掘方法的复杂性等因素,促进了并行和分布式数据挖掘算法的发展。这些算法将数据分成多个分区,这些分区以并行方式进一步处理。然后合并分区的结果。增量算法,更新数据库,无需从头开始重新挖掘数据。

 

 

各种数据类型问题

 

处理关系型和复杂型数据 - 数据库可能包含复杂的数据对象,多媒体数据对象,空间数据,时态数据等。一个系统无法挖掘所有这些类型的数据。

从异构数据库和全球信息系统中挖掘信息 - LAN或WAN上的不同数据源上都有数据可用。这些数据源可以是结构化的,半结构化的或非结构化的。因此,从中挖掘知识会增加数据挖掘的挑战。

以上是关于Data Mining Tutorial -- 简明译文Part 03的主要内容,如果未能解决你的问题,请参考以下文章

BK: Data mining

data mining 1 concept

Data Mining Note

CSCE 474/874: Introduction to Data Mining

cluster analysis in data mining

Mining Twitter Data with Python