数据挖掘课程数据
Posted jocelynzym
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘课程数据相关的知识,希望对你有一定的参考价值。
摘要
1.属性和对象(attributes and objects)
2.数据集类型(types of data sets)
3.数据质量(data quality)
4.数据预处理(data preprocessing)
1.属性和对象
属性和对象构成了数据,在完成一个数据挖掘任务时,
-
数据(datas)=对象(objects)+属性(attributes)
-
属性的别称
维度dimensions, 特征features, 变量variables
-
属性的分类
标称(nominal), 序数(ordinal), 区间(interval), 比例(ratio)
2.数据集类型
-
记录(record)
(1) 包含诸多记录的表格,每个对象有一系列属性
(2) 文档数据:
词袋(bag-of-words)
索引矩阵
(3)切片数据(transaction data)
-
图和网络(graph and network)
(1) 万维网 (world wide web)
每个网页包含指向其他网页的url,这样的指向关系构成网络
(2) 社交网络 (social or information networks)
(3) 分子结构 (molecular structures)
-
其他
(1) 空间位置信息(spatial)
(2) 图片(image)
(3) 多媒体(multimedia)
3.数据质量
-
数据的可能缺陷
(1)噪声(noise)和极端值(outliers)
噪声对正确的值产生改动: 比如电视上出现的雪花状图案
极端值: 在数据集中明显偏离其他数据项的数据项,极端值可能是需要去除的噪声,也可能是数据挖掘任务的目标
(2)缺值(missing value)
缺值的原因分为,数据未收集到(eg. 人拒绝提供年龄信息),或者数据项数值为空(eg. 儿童没有年收入)
(3)值重复(duplicate data)
比如一个人有多个e-mail, 数据集中就会有该人的多条冗余记录
-
怎样补救数据集缺陷
(1)缺值处理: 去除这条记录/给缺值一个估计值/分析时忽略缺值
(2)值重复: 合并冗余记录
4.数据预处理
-
集成(aggregation)
把多个特征合并成一个特征,或把多个对象合并成一个对象。
集成后的数据有更少的变量,也更加稳定
-
抽样(sampling)
抽样所得的样本一定要有代表性,足以代表整个数据集
-
降维(dimensionality Reduction)
-
(feature subset selection)
-
(feature creation)
-
(discretization and binarization)
-
以上是关于数据挖掘课程数据的主要内容,如果未能解决你的问题,请参考以下文章
20155234 2017-2018-1《信息安全系统设计基础》课程总结
HTML5期末大作业:餐饮美食网站设计——咖啡(10页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 咖啡网页设计 美食餐饮网页设计...(代码片段
python 用于数据探索的Python代码片段(例如,在数据科学项目中)