数据挖掘课程数据

Posted jocelynzym

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘课程数据相关的知识,希望对你有一定的参考价值。

摘要

1.属性和对象(attributes and objects)

2.数据集类型(types of data sets)

3.数据质量(data quality)

4.数据预处理(data preprocessing)

 

1.属性和对象

属性和对象构成了数据,在完成一个数据挖掘任务时,

  • 数据(datas)=对象(objects)+属性(attributes)

技术分享图片

  • 属性的别称

    维度dimensions, 特征features, 变量variables

  • 属性的分类

    标称(nominal), 序数(ordinal), 区间(interval), 比例(ratio)

 

2.数据集类型

  • 记录(record)

    (1) 包含诸多记录的表格,每个对象有一系列属性

    (2) 文档数据:

    词袋(bag-of-words)

    索引矩阵

    (3)切片数据(transaction data)

    技术分享图片

  • 图和网络(graph and network)

    (1) 万维网 (world wide web)

    每个网页包含指向其他网页的url,这样的指向关系构成网络

    (2) 社交网络 (social or information networks)

    (3) 分子结构 (molecular structures)

  • 其他

    (1) 空间位置信息(spatial)

    (2) 图片(image)

    (3) 多媒体(multimedia)

 

3.数据质量

  • 数据的可能缺陷

    (1)噪声(noise)和极端值(outliers)

    噪声对正确的值产生改动: 比如电视上出现的雪花状图案

    极端值: 在数据集中明显偏离其他数据项的数据项,极端值可能是需要去除的噪声,也可能是数据挖掘任务的目标

    (2)缺值(missing value)

    缺值的原因分为,数据未收集到(eg. 人拒绝提供年龄信息),或者数据项数值为空(eg. 儿童没有年收入)

    (3)值重复(duplicate data)

    比如一个人有多个e-mail, 数据集中就会有该人的多条冗余记录

  • 怎样补救数据集缺陷

    (1)缺值处理: 去除这条记录/给缺值一个估计值/分析时忽略缺值

    (2)值重复: 合并冗余记录

 

4.数据预处理

  • 集成(aggregation)

    把多个特征合并成一个特征,或把多个对象合并成一个对象。

    集成后的数据有更少的变量,也更加稳定

  • 抽样(sampling)

    抽样所得的样本一定要有代表性,足以代表整个数据集

  • 降维(dimensionality Reduction)

  • (feature subset selection)

  • (feature creation)

  • (discretization and binarization)

  • (attribute transformation)

以上是关于数据挖掘课程数据的主要内容,如果未能解决你的问题,请参考以下文章

20155234 2017-2018-1《信息安全系统设计基础》课程总结

HTML5期末大作业:餐饮美食网站设计——咖啡(10页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 咖啡网页设计 美食餐饮网页设计...(代码片段

python 用于数据探索的Python代码片段(例如,在数据科学项目中)

css 粘性页脚片段(来源:treehouse flexbox课程)

超级有用的9个PHP代码片段

将代码片段插入数据库并在 textarea 中以相同方式显示