《数据挖掘:概念与技术》学习笔记2

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《数据挖掘:概念与技术》学习笔记2相关的知识,希望对你有一定的参考价值。

  认识数据

1、数据属性(attribute,可以等同于维dimension、特征feature以及变量variable)

数值属性里面可以求均值(mean平均值)、中位数(median中间值)以及众数(mode最常见的值,一个叫单峰的unimodal,两个双峰bimodal,三个叫三峰trimodal,多个叫多峰的multimodal)。这三个数可以表示中心趋势度量。

涉及一个属性的数据分布叫单变量的univariate,两个的叫bivariate。

(1)标称属性nominal attribute

符号或名称,类别、编码或者状态,可看做分类的categorical或枚举的enumeration

(2)二元属性binary attribute,nominal attribute的一种,取值0或1,布尔属性

(3)序数属性ordinal attribute

值之间具有有意义的序或者秩评定ranking

以上三个都是定性属性。

(4)数值属性numeric attribute

a.区间标度interval-scaled没有真正的0点,例如时间

b.比例标度ratio-scaled有0点,计数的数

(5)离散属性和联系属性

 

度量数据散布:

极差range是最大值max与最小值min之差

分位数quantile是按固定间隔将数据划分成大小相等的连贯集合。

常用的五数概括five-number summary由最小值Minimum,四分位数Q1,Median,Q3,Maximum组成。

方差variance是与平均值的差的平方的和,标准差standard deviation是variance的平方根。

 

以上是关于《数据挖掘:概念与技术》学习笔记2的主要内容,如果未能解决你的问题,请参考以下文章

数据结构与算法学习笔记:数据结构基本概念

区块链基本概念学习笔记

区块链基本概念学习笔记

数据结构与算法学习笔记 栈和队列Ⅰ

[初级]信息处理技术员学习笔记1

《大话数据结构》学习笔记