Data Mining Tutorial -- 简明译文Part 03
Posted ltmkchgs
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Data Mining Tutorial -- 简明译文Part 03相关的知识,希望对你有一定的参考价值。
第三章 Issues
数据挖掘并不是一件容易的事,因为所使用的算法会变得非常复杂,并且数据并不总是在一个地方可用。它需要从各种异构数据源集成。这些因素也会产生一些问题。在本教程中,我们将讨论有关的主要问题:
- 挖掘方法和用户交互
- 性能问题
- 各种数据类型问题
下图描述了主要问题,
挖掘方法和用户交互问题
它涉及以下几类问题:
在数据库中挖掘不同类型的知识 - 不同的用户可能对不同类型的知识感兴趣。因此,数据挖掘必须涵盖广泛的知识发掘任务。
在多个抽象层次上交互式挖掘知识 - 数据挖掘过程需要是交互式的,因为它允许用户集中搜索模式,根据返回的结果提供和优化数据挖掘请求。
结合背景知识 - 为了指引发掘过程和表述发现的模式,可以使用背景知识。背景知识不仅可以用简洁的术语表达发现的模式,而且可以用于多个抽象层次。
数据挖掘查询语言和特定的数据挖掘 - 数据挖掘查询语言允许用户描述特定的挖掘任务,与数据仓库查询语言集成并优化,以实现高效灵活的数据挖掘。
处理有杂质的或不完整的数据 - 在挖掘数据规律时,需要使用数据清洗方法来处理噪声和不完整的对象。如果数据清理方法不存在,那么发现的模式的准确性将很差。
模式评估 - 发现的模式应该是有趣的,因为它们代表了常识或缺乏新意。
性能问题
可能存在与性能相关的问题,例如:
数据挖掘算法的效率和可扩展性 - 为了有效地从数据库中的大量数据中提取信息,数据挖掘算法必须高效且可扩展。
并行,分布式,增量式的挖掘算法 - 诸如数据库的庞大规模,数据的分布广泛以及数据挖掘方法的复杂性等因素,促进了并行和分布式数据挖掘算法的发展。这些算法将数据分成多个分区,这些分区以并行方式进一步处理。然后合并分区的结果。增量算法,更新数据库,无需从头开始重新挖掘数据。
各种数据类型问题
处理关系型和复杂型数据 - 数据库可能包含复杂的数据对象,多媒体数据对象,空间数据,时态数据等。一个系统无法挖掘所有这些类型的数据。
从异构数据库和全球信息系统中挖掘信息 - LAN或WAN上的不同数据源上都有数据可用。这些数据源可以是结构化的,半结构化的或非结构化的。因此,从中挖掘知识会增加数据挖掘的挑战。
以上是关于Data Mining Tutorial -- 简明译文Part 03的主要内容,如果未能解决你的问题,请参考以下文章
CSCE 474/874: Introduction to Data Mining