数据挖掘期末复习模拟题(暨考试题)
Posted ZSYL
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘期末复习模拟题(暨考试题)相关的知识,希望对你有一定的参考价值。
数据挖掘-期末复习试题
挑战全网最全题库
单选题
- 什么是KDD()?
A、数据挖掘与知识发现 B、领域知识发现
C、文档知识发现 D、态知识发现
KDD全称Knowledge Discovery in Database
-
人从出生到长大的过程中,是如何认识事物的()?
A、聚类过程 B、分类过程
C、先分类,后聚类 D、先聚类,后分类 -
“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:()。
A、数据 B、信息
C、知识 D、智慧
-
“8,000”和“10,000”表示:( ) 。
A、数据 B、信息
C、知识 D、智慧
-
“飞机无法飞过高山”表示:() 。
A、数据 B、信息
C、知识 D、智慧
-
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的()问题?
A、关联规则发现
B、聚类
C、分类
D、自然语言处理 -
以下两种描述分别对应哪两种对分类算法的评价标准()?
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。A、Precision,Recall
B、Recal1,Precision
C、Precision,ROC
D、Recall,ROC -
将原始数据进行集成、变换、维度规约、数值规约是在以下()步骤的任务?
A、频繁模式挖掘
B、分类和预测
C、数据预处理
D、数据流挖掘 -
当不知道数据所带标签时,可以使用()技术促使带同类标签的数据与带其他标签的数据相分离
A、分类
B、聚类
C、关联分析
D、隐马尔可夫链
聚类(Clustering)是把数据对象划分成子集的过程,就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象之间的差异较大。
-
使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的()任务?
A、探索性数据分析
B、建模描述
C、预测建模
D、寻找模式和规则 -
为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的()任务?
A、探索性数据分析
B、建模描述
C、预测建模
D、寻找模式和规则 -
建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的()任务
A、根据内容检索
B、建模描述
C、预测建模
D、寻找模式和规则 -
用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘()任务?
A、根据内容检索
B、建模描述
C、预测建模
D、寻找模式和规则 -
以下属于可伸缩聚类算法的是() 。
A、CURE B、DENCLUE
C、CLIQUE D、OPOSSUM -
下面()不属于数据预处理的方法?
A、变量代换
B、离散化
C、聚集
D、估计遗漏值 -
假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在()箱子内?
A、第一个
B、第二个
C、第三个
D、第四个 -
下列应用场景不属于分类的是()。
A、医生根据患者的症状判断所患疾病类型
B、为了解用户特点,公司将客户分群
C、对信用卡申请者判断其信誉高低
D、推广新产品时预测已有客户是否对新产品感兴趣 -
以下哪种方法不属于特征选择的标准方法:()。
A、嵌入
B、过滤
C、包装
D、抽样 -
假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等宽划分时(宽度为50),15又在( )箱子里?
A、第一个
B、第二个
C、第三个
D、第四个 -
下面不属于创建新属性的相关方法的是:()。
A、特征提取
B、特征修改
C、映射数据到新的空间
D、特征构造 -
所谓高维数据,指的是()。
A、数据对象很多
B、数据属性很多
C、以上都正确
D、以上都错误 -
结构化的数据是指一些数据通过统一的()的形式存储的,这类数据我们称为结构化的数据。
A、文档
B、二维表格
C、图像
D、声音 -
下列对学生相关属性描述中,不是标称属性的是()。
A、学号
B、婚姻状况
C、身高
D、头发颜色 -
下列哪些选项能表示序数属性的数据集中趋势度量()。
A、四分位数
B、众数
C、均值
D、标准差 -
()可以观察从一个分布到另一分布是否有漂移。
A、盒图
B、分位数-分位数图
C、散点图
D、直方图 -
度量作为一种测度,满足以下()条件:
A、对称性
B、同一性
C、三角不等式
D、以上均是 -
Python科学计算的基本包是( )。
A、Pandas
B、Numpy
C、Scikit-learn
D、Matplotlib -
以下Python包中,提供了DataFrame数据类型的是()。
A、Numpy
B、Pandas
C、Scikit-learn
D、Matplotlib -
为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python安装方式为()。
A、直接下载Python安装
B、通过浏览器查找处理过的Python安装包
C、通过Anaconda安装
D、直接安装Pycharm -
运行以下代码
from sklearn.datasets import load_iris
iris_data = load_iris()
iris_data.data.shape
输出结果为(150, 4)。则表示iris数据集包括样本个数为()。
A、154
B、600
C、4
D、150 -
下面哪个不属于数据的属性类型
A 标称
B 序数
C 区间
D相异 -
在上题中,属于定量的属性类型是
A 标称
B 序数
C 区间
D 相异 -
只有非零值才重要的二元属性被称作
A 计数属性
B 离散属性
C 非对称的二元属性
D 对称属性 -
以下哪种方法不属于特征选择的标准方法
A 嵌入
B 过滤
C 包装
D 抽样 -
考虑值集1、2、3、4、5、90,其截断均值(p=20%)是 (C)
A 2
B 3
C 3.5
D 5 -
下面哪个属于映射数据到新的空间的方法? (A)
A 傅立叶变换
B 特征加权
C 渐进抽样
D 维归约 -
熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:
A 1比特
B 2.6比特
C 3.2比特
D 3.8比特 -
假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)
A 0.821
B 1.224
C 1.458
D 0.716 -
假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)
A 18.3
B 22.6
C 26.8
D 27.9 -
考虑值集12 24 33 2 4 55 68 26,其四分位数极差是:(A)
A 31
B 24
C 55
D 3 -
一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: (A)
A 一年级
B二年级
C 三年级
D 四年级 -
下列哪个不是专门用于可视化时间空间数据的技术: (B)
A 等高线图
B 饼图
C 曲面图
D 矢量场图 -
在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)
A 有放回的简单随机抽样
B 无放回的简单随机抽样
C 分层抽样
D 渐进抽样 -
数据仓库是随着时间变化的,下面的描述不正确的是(C)
A. 数据仓库随时间的变化不断增加新的数据内容;
B. 捕捉到的新数据会覆盖原来的快照;
C. 数据仓库随事件变化不断删去旧的数据内容;
D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. -
关于基本数据的元数据是指: (D)
A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;
B. 基本元数据包括与企业相关的管理方面的数据和信息;
C. 基本元数据包括日志文件和简历执行处理的时序调度信息;
D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息. -
下面关于数据粒度的描述不正确的是: ©
A. 粒度是指数据仓库小数据单元的详细程度和级别;
B. 数据越详细,粒度就越小,级别也就越高;
C. 数据综合度越高,粒度也就越大,级别也就越高;
D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量. -
OLAP技术的核心是: (D)
A. 在线性;
B. 对用户的快速响应;
C. 互操作性.
D. 多维分析; -
关于OLAP的特性,下面正确的是: (D)
(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性
A. (1) (2) (3)
B. (2) (3) (4)
C. (1) (2) (3) (4)
D. (1) (2) (3) (4) (5) -
设X=1,2,3是频繁项集,则可由X产生__(C)__个关联规则。
A、4
B、5
C、6
D、7 -
概念分层图是__(B)__图。
A、无向无环
B、有向无环
C、有向有环
D、无向有环 -
频繁项集、频繁闭项集、最大频繁项集之间的关系是:(C)
A、频繁项集 频繁闭项集 =最大频繁项集
B、频繁项集 = 频繁闭项集 最大频繁项集
C、频繁项集 频繁闭项集 最大频繁项集
D、频繁项集 = 频繁闭项集 = 最大频繁项集 -
考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含(C)
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5 -
下面选项中t不是s的子序列的是 ( C )
A、s=<2,4,3,5,6,8> t=<2,3,6,8>
B、s=<2,4,3,5,6,8> t=<2,8>
C、s=<1,2,3,4> t=<1,2>
D、s=<2,4,2,4> t=<2,4> -
在图集合中发现一组公共子结构,这样的任务称为 ( B )
A、频繁子集挖掘
B、频繁子图挖掘
C、频繁数据项挖掘
D、频繁模式挖掘 -
下列度量不具有反演性的是 (D)
A、系数
B、几率
C、Cohen度量
D、兴趣因子 -
下列__(A)__不是将主观信息加入到模式发现任务中的方法。
A、与同一时期其他数据对比
B、可视化
C、基于模板的方法
D、主观兴趣度量 -
下面购物篮能够提取的3-项集的最大数量是多少(C)
ID 购买项
1 牛奶,啤酒,尿布
2 面包,黄油,牛奶
3 牛奶,尿布,饼干
4 面包,黄油,饼干
5 啤酒,饼干,尿布
6 牛奶,尿布,面包,黄油
7 面包,黄油,尿布
8 啤酒,尿布
9 牛奶,尿布,面包,黄油
10 啤酒,饼干
A、1
B、2
C、3
D、4
-
以下哪些算法是分类算法(B)
A,DBSCAN
B,C4.5
C,K-Mean
D,EM -
以下哪些分类方法可以较好地避免样本的不平衡问题(A)
A,KNN
B,SVM
C,Bayes
D,神经网络 -
决策树中不包含一下哪种结点(C)
A,根结点(root node)
B,内部结点(internal node)
C,外部结点(external node)
D,叶结点(leaf node) -
以下哪项关于决策树的说法是错误的(C)
A. 冗余属性不会对决策树的准确率造成不利的影响
B. 子树可能在决策树中重复多次
C. 决策树算法对于噪声的干扰非常敏感
D. 寻找最佳决策树是NP完全问题 -
在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)
A. 基于类的排序方案
B. 基于规则的排序方案
C. 基于度量的排序方案
D. 基于规格的排序方案。 -
以下哪些算法是基于规则的分类器 (A)
A. C4.5
B. KNN
C. Na?ve Bayes
D. ANN -
如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为(C);
A,无序规则
B,穷举规则
C,互斥规则
D,有序规则 -
如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为(B)
A,无序规则
B,穷举规则
C,互斥规则
D,有序规则 -
如果规则集中的规则按照优先级降序排列,则称规则集是 (D)
A,无序规则
B,穷举规则
C,互斥规则
D,有序规则 -
如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)
A,无序规则
B,穷举规则
C,互斥规则
D,有序规则 -
考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为(C)
A,0.75
B,0.35
C,0.4678
D,0.5738 -
以下关于人工神经网络(ANN)的描述错误的有 (A)
A,神经网络对训练数据中的噪声非常鲁棒
B,可以处理冗余特征
C,训练ANN是一个很耗时的过程
D,至少含有一个隐藏层的多层神经网络 -
通过聚集多个分类器的预测来提高分类准确率的技术称为 (A)
A,组合(ensemble)
B,聚集(aggregate)
C,合并(combination)
D,投票(voting) -
简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B)
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类 -
在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
A、曼哈顿距离
B、平方欧几里德距离
C、余弦距离
D、Bregman散度 -
( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A、边界点
B、质心
C、离群点
D、核心点 -
BIRCH是一种( B )。
A、分类器
B、聚类算法
C、关联分析算法
D、特征选择算法 -
检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。
A、统计方法
B、邻近度
C、密度
D、聚类技术 -
( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
A、MIN(单链)
B、MAX(全链)
C、组平均
D、Ward方法 -
( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。
A、MIN(单链)
B、MAX(全链)
C、组平均
D、Ward方法 -
DBSCAN在最坏情况下的时间复杂度是( B )。
A、O(m)
B、O(m2)
C、O(log m)
D、O(m*log m) -
在基于图的簇评估度量表里面,如果簇度量为proximity(Ci , C),簇权值为mi ,那么它的类型是(C)。
A、基于图的凝聚度
B、基于原型的凝聚度
C、基于原型的分离度
D、基于图的凝聚度和分离度 -
关于K均值和DBSCAN的比较,以下说法不正确的是( A )。
A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。 -
以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( C )。
A、MST
B、OPOSSUM
C、Chameleon
D、Jarvis-Patrick(JP) -
考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( D )的相似度计算方法。
A、平方欧几里德距离
B、余弦距离
C、直接相似度
D、共享最近邻 -
以下属于可伸缩聚类算法的是( A )。
A、CURE
B、DENCLUE
C、CLIQUE
D、OPOSSUM -
以下哪个聚类算法不是属于基于原型的聚类(D)。
A、模糊c均值
B、EM算法
C、SOM
D、CLIQUE -
关于混合模型聚类算法的优缺点,下面说法正确的是(B)。
A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。
B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。
C、混合模型很难发现不同大小和椭球形状的簇。
D、混合模型在有噪声和离群点时不会存在问题。 -
以下哪个聚类算法不属于基于网格的聚类算法( D )。
A、STING
B、WaveCluster
C、MAFIA
D、BIRCH -
一个对象的离群点得分是该对象周围密度的逆。这是基于( C )的离群点定义。
A.概率
B、邻近度
C、密度
D、聚类 -
下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是( D )。
A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。
B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。
C、JP聚类是基于SNN相似度的概念。
D、JP聚类的基本时间复杂度为O(m)。 -
通过代码“from sklearn.cluster import Keans”引入Xmenas模块后,生成模型对象“kmeans =KMeans (n_clusters=3)”并完成对数据X完成聚类后,以下哪个代码可以查看每个样本所属簇的标签(D)。
A、kmeans.targets_
B、kmeans. output_
C、kmeans.y_
D、kmeans.labels_ -
下面关于维的叙述中()是错误的。
A、维是人们观察数据的特定角度
B、维的层次性是由观察数据细致程度不同造成的
C、“某年某月某日”是时间维的层次
D、“月、季、年”是时间维的层次 -
朴素贝叶斯分类器的朴素之处在于() 。
A、只能处理低维属性
B、只能处理离散型属性
C、分类效果一般
D、属性之间的条件独立性假设 -
下列属于决策树中应该剪枝的情景是()。
A、一个结点关联的数据集的信息嫡低于指定阈值
B、双亲结点的误差比子女结点的平均误差大
C、双亲结点的误差比子女结点的加权误差大
D、一个结点关联的数据集的信息嫡高于指定阈值 -
假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,该分类器的准确率accuracy为()。
A、70%
B、66.7%
C、80%
D、75%
35/50
-
给定numpy.ndarray类型的数X,在以下代码中,eps参数的含义是()。from sklearn.cluster import DBSCAN
clustering = DBSCAN(eps=3,min_samples=2).fit(X)
A、簇的个数
B、收敛条件阈值
C、每个簇的最小样本数
D、邻域半径 -
根据聚类形成的簇的特点,如果有交集的簇之间必然存在包含关系,这种聚类称为()。
A、划分型聚类
B、重叠聚类
C、层次型聚类
D、以上均不是 -
对于指数曲线y=a*e^(bx),令u=ln y,c=1n a,经过非线性化回归分析之后,可以转化成的形式为() 。
A、y=b+cx
B、y=c+bx
C、u=c十bx
D、u=b十cx -
回归树的叶子结点对应() 。
A、一个线性回归方程
B、某个类别
C、一个数值
D、以上都可以 -
利用信息增益方法作为属性选择度量建立决策树时,已知某训练样本集的4个条件属性的信息增益分别为: G(收入)=0. 940位,G(职业)=0.151位,G(年龄)=0.780位,G(信誉)=0.048位,则应该选择()属性作为决策树的测试属性。
A、收入
B、职业
C、年龄
D、信誉 -
4人喜欢服饰的颜色如下,属性是标称属性。李四和孙六的相似性是()。
A、1/5
B、2/5
C、3/5
D、4/5
same/all
-
Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第二个返回值是()
A、最小支持度
B、关联规则
C、最小置信度
D、频繁项集 -
P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的曼哈顿距离是()。
A、6
B、√233
C、11
D、√45 -
决策树的叶子结点对应() 。
A、一个数值
B、某个类别
C、一个线性回归方程
D、以上都可以 -
轮廓系数的取值范围是()。
A、[o,1]
B、[-1,0]
C、[-1,1]
D、[o,o ) -
关联规则的挖掘算法只能处理()类型的取值,为此()是继续其知识发现过程的必要步骤。
A、离散;数据离散化
B、离散;数据规范化
C、连续;数据离散化
D、连续;数据规范化 -
如下表所示,使用FP-Growth计算其频繁集,给定最小支持度为40%,频繁模式树(FP树)有9个结点。(不包括根结点)。
-
皮尔森相关系数取值为()时说明两个对象最不相似。
A、0.05
B、0
C、-1
D、1 -
假定属性income的均值和标准差分别为54000美元和16000美元,使用Z-score规范化值83600美元转换为()。
A、0.778
B、1.987
C、2.201
D、1.850 -
下列关于数据规范化说法错误的是() 。
A、数据规范化是将属性的取值范围统一
B、数据规范化又称为数据标准化
C、数据规范化是为了给重要的属性赋予更大的权重
D、数据规范化是为了避免不同属性的不平等地位 -
对于任一个频繁项集X和它的一个非空真子集Y,S=X-Y,规则S→Y成立的条件是( )。
A、confidence(S→Y)≥minconf
B、confidence(Y→S)≥minconf
C、confidence (S→Y)<minconf
D、confidence(Y→S)<minconf -
K一Means算法中的初始中心点(D)。
A、可随意设置
B、必须在每个簇的真实中心点的附近
C、必须足够分散
D、直接影响算法的收敛结果 -
在利用linear_model.LinearRegression()构造的reg对象训练模型后,可以通过以下哪行代码查看回归模型系数(B)。
A、 reg.coefficient_
B、reg.coef_
C、reg._coef
D、reg._coefficient -
在比较模型的拟合效果时,甲、乙、内、丁四个模型的决定系数R 2的值分别约为0.96、0.85、0.80和0.7,则拟合效果好的模型是(D)。
A、丁
B、乙
C、丙
D、甲 -
利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第一个参数是(A)
A、样本特征X
B、样本标签Y
C、判断标准
D、设置结点的最小样本数量 -
缺失值处理方法中错误的是(D) 。
A、对于离散属性或定性属性,使用众数
B、转换为分类问题或数值预测问题
C、对于分类属性,使用同类对象属性值的均值
D、对于所有属性都可以使用均值
多选题
-
以下关于数据预处理的描述正确的是()。
A、需要借助领域知识
B、核心内容就是缺失数据填充
C、数据挖掘工作的基础性工作
D、主要靠标准化算法自动处理展开 -
聚类与分类的主要区别在于() 。
A、数据维度不同
B、数据类型不同
C、数据有无标签
D、计算复杂度不同 -
数据挖掘包括下面哪些方法()。
A、分类
B、异常发现
C、关联
D、聚类 -
数据挖掘和哪些学科领域有关系() 。
A、优化 B、统计 C、数据库 D、机器学习
-
下列对学生的描述属性中,标称属性的属性是:() 。
A、学号 B、婚姻状况 C、身高 D、头发颜色
数据的属性类型有:
1、标称属性。
标称属性的值是一些符号或实物的名称,每个值代表某种类别、编码或状态,所以标称属性又被看做是分类型的属性(categorical)。这些值不必具有有意义的序,并且不是定量的。
2、二元属性。
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0常表示不出现,1表示出现。如果将0和1对应于false和true,二元属性则为布尔属性。
3、序数属性。
序数属性可能的取值之间具有有意义的序或秩评定,但相继值之间的差是未知的。例如,学生的成绩属性可以分为优、良、中、差四个等级;某快餐店的饮料杯具有大、中、小三个可能值。然而,具体“大”比“中”大多少是未知的。
4、数值属性。
数值属性是可度量的量,用整数或实数值表示,有区间标度和比率标度两种类型。区间标度属性:区间标度属性用相等的单位尺度度量。区间属性的值有序。所以,除了秩评定之外,这种属性允许比较和定量评估值之间的差;比率标度属性:比率标度属性的度量是比率的,可以用比率来描述两个值,即一个值是另一个值的倍数,也可以计算值之间的差。
5、离散属性与连续属性。
离散属性具有有限或无限可数个值。如学生成绩属性,优、良、中、差;二元属性取1和0以及年龄属性取0到110。如一个属性可能取值的值集合是无限的,但可以建立一个与自然数的一一对应,则其也是离散属性。如果一个属性不是离散的,则它是连续的。
-
下列哪些指标可以度量数据的离散趋势度量:()。
A、极差 B、五数概括 C、四分位数极差 D、四分位数
-
在探索性数据分析中,认为最有代表性,最能反映数据重要特征的五数概括,包括:( )。
A、中位数Q2
B、最大值
C、四分位数Q3
D、最小值 -
在利用中文文本绘制词云时,需要在anaoncda的基础上安装哪些工具包()。
A、Scikit-learn
B、Matplotlib
C、Wordcloud
D、Jieba
-
数据清洗的主要目的是将数据集中存在的()和()进行处理,降低其对后续数据分析处理的影响。
A、最大值
B、噪声
C、最小值
D、缺失
-
下列()是决策树分类算法?
A、C4.5
B、CART
C、ID3
D、KNN
-
构造训练数据集和测试数据集的常用方法有()。
A、留一法(leave one out)
B、自助抽样法 (bootstrap)
C、保持法/留出法 (hold out)
D、交叉验证法 (cross validation) -
( )采用自顶向下分而治之的思想,将训练集不断分割成子数据集来不断扩展树枝,当满足一定条件时停止树的生长。
A、模型树
B、回归树
C、多元回归
D、决策树 -
预测性能的优劣需要一定的度量来衡量,常用的度量是()。
A、MSE(均方误差)
B、RAE(相对绝对误差)
C、MAE(平均绝对误差)
D、RSE(相对平方误差) -
下面()聚类方法易于发现特殊形状的簇?
A、DBSCAN
B、基于密度的聚类方法
C、层次聚类
D、k均值聚类 -
关于聚类下列说法正确的是()。
A、聚类可以发现偏离多数数据对象的孤立点
B、聚类可以作为其他数据挖掘分析过程的一个基础处理步骤
C、聚类有着广泛的应用
D、聚类和分类没有区别 -
根据分析目标,Web挖掘可以划分主要研究领域包括()。
A、Web使用挖掘
B、Web结构挖掘
C、Web内容挖掘
D、Web布局挖掘 -
下面哪些是时空数据的应用()。
A、从多媒体数据库中发现有趣的模式
B、气象学家使用人造卫星和雷达观察飓风
C、机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆
D、动物学家把遥感设备安装在野生动物身上,以便分析生态行为 -
一个决策树包括如下( )要素。
A、测试节点
B、分支
C、叶子
D、以上均错误 -
采用决策树分类算法,连续数据如何处理()?
A、连续数据离散化
B、选择最佳划分点分裂
C、连续数据每2个值之间形成分裂
D、以上均错误 -
下列说法正确的是( )。
A、K-means算法能够解决有离群点的聚类问题
B、K-modes能够解决离散数据的聚类问题
C、K-means++能够解决初始点影响聚类效果的问题
D、K中心点能够解决有离群点的聚类问题 -
通过数据挖掘过程所推倒出的关系和摘要经常被称为:模型、模式
-
寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤? (A B C D)
A. 决定要使用的表示的特征和结构
B. 决定如何量化和比较不同表示拟合数据的好坏
C. 选择一个算法过程使评分函数最优
D. 决定用什么样的数据管理原则以高效地实现算法。 -
数据挖掘的预测建模任务主要包括哪几大类问题分类和回归
-
以下哪些学科和数据挖掘有密切联系:统计、人工智能
-
下面属于维归约常用的线性代数技术的有:主成分分析/奇异值分解
-
朴素的逻辑回归可以解决非线性的分类问题。F
-
将连续和离散属性变换成一个或多个二元属性的过程称为二元化
-
连续属性离散化方法分为非监督离散化,监督离散化方法,它们的区别在于使用还是不使用类信息。
-
训练误差也称在带入误差或表现误差,是在训练记录上误分类样本比例。泛化误差是模型在未知记录上的期望误差。
-
根据属性值得个数不同可将属性分为离散型和连续型。
-
分类规则的质量可用规则的覆盖率和准确率表示。
-
在分类模型评估的K折交叉验证方法中,把数据分为大小相同的K份,在每次运行,选择其中一份作为检验集,而其余的全为训练集。
-
关联规则挖掘的目的是用于发现隐藏在大型数据集中的有意义的联系。
判断题
- 杰卡德系数用来度量非对称的二进制属性的相似性。T
- 欧式距离用来度量连续数值属性数据的相似性。T
- 相关系数用来度量标称属性数据的相关性。F
- 卡方测试用来度量离散标称属性数据的相关性。T
- ayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。F
- 可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类。T
- 贝叶斯分类器对离群点敏感。F
- 聚类针对有标签的数据。F
- 分类和回归都可用于预测,分类的输出是离散的类别值。T
- 分类就是根据物以类聚的原理,将没有类别的对象根据对象的特征自动聚成不同簇的过程。F
- 序列分析经常会用在购物篮分析中。F
- 关联分析是数据分析中常用的分析方法。T
- 序数属性的值存在有意义的序。相邻两者之间的差是已知的。F
- 四分位数极差(IQR)是第1个和第2个四分位数之间的距离。F
- 基于熵的方法可以被看做是自顶向下的分裂方法,ChiMerge则属于自底向上的合并方法。T
- 在主成分分析中,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。T
- 购买了此商品后还会购买的商品,它们的地位是平等的,其中涉及了时间和顺序的概念,强调的是一个规则,也就是我们所说的关联规则。F
- 如果一个项集是不频繁的,则其所有的超集都是不频繁的。利用这一性质可以简化Apriori算法中的计算过程。T
- ID3的分裂属性选择条件是选择信息增益最大的作为分裂属性。T
- 为了检验回归系数的显著性,可以使用F检验。F
- 在计算混合类型属性的相异性时,一般是通过将所有有意义的属性转换到共同的区间[0.0,1.0]上,实现在单个相异性矩阵中进行计算。T
- 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)
- 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)
- 图挖掘技术在社会网络分析中扮演了重要的角色。(对)
- 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)
- 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)
- 离群点可以是合法的数据对象或者值。 (对)
- 噪声和伪像是数据错误这一相同表述的两种叫法。 (错)
- 用于分类的离散化方法之间的根本区别在于是否使用类信息。 (对)
- 特征提取技术并不依赖于特定的领域。 (错)
- 序列数据没有时间戳。 (对)
- 定量属性可以是整数值或者是连续值。 (对)
- 可视化技术对于分析的数据类型通常不是专用性的。 (错)
- 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对)
- 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)
- 数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)
- Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错)
- 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)
- 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。
- 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错)
- 具有较高的支持度的项集具有较高的置信度。(错)
- 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。 (错)
- 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)
- 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)
- Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错)
- 分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对)
- 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)
- SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错)
- 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)
- 聚类分析可以看作是一种非监督的分类。(对)
- K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错)
- 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)
- 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)
- 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)
- 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)
- DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)
- 分类就是根据物以类聚的原理,将没有类别的对象根据对象的特征自动聚成不同簇的过程。F
- 序数属性的值存在有意义的序。相邻两者之间的差是已知的。F
- 决策树方法通常用于关联规则挖掘。F
- 先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的。T
- 在计算混合类型属性的相异性时,一般是通过将所有有意义的属性转换到共同的区间[0.0,1.0]上,实现在单个相异性矩阵中进行计算。T
- 轮廓系数是将凝聚度和分离度相结合的一种度量,越大聚类效果越好。T
- DBSCAN是一种基于密度的聚类方法,容易发现特殊形状的簇。T
- 在模型树的剪枝过程中,两个叶子结点的期望误差通过加权求和结合在一起作为子树误差。T
- 一元线性回归的步骤:构建包含因变量和自变量的训练集,通过散点图确认因变量和自变量之前的近似线性关系;计算系数和构建模型;模型检验;利用模型进行预测。T
- 杰卡德系数用来度量非对称的二进制属性的相似性。T
- 基于嫡的方法可以被看做是自顶向下的分裂方法,ChiMerge则属于自底向上的合并方法。T
- 购买了此商品后还会购买的商品,它们的地位是平等的,其中涉及了时间和顺序的概念,强调的是一个规则,也就是我们所说的关联规则。F
- logistic回归对噪声不敏感。F
- 提取声波的频率属于数据挖掘范畴。F
- 对于非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义,其中负匹配数t被认为是不重要的,因此在计算时可以忽略。T
- FP-growth算法无须生成候选项集的方法,可以避免产生大量候选项集。T
- 凝聚度是用于衡量簇间相似程度的,凝聚度越大越好。T
- DBSCAN是一种基于密度的聚类方法,容易发现特殊形状的簇。T
- 欧式距离用来度量连续数值属性数据的相似性。T
- Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。F
- 朴素的逻辑回归可以解决非线性的分类问题。F
- 回归树和模型树都是通过自下而上、分而治之的思想,将训练集不断分割成子数据集来不断扩展树枝,当满足一定条件时停止树的生长。F
- ID3算法不仅可以处理离散属性,还可以处理连续属性。F
- 计算公司的总销售额属于数据挖掘范畴。F
- 根据性别划分顾客属于数据挖掘范畴。F
- 根据可盈利性划分公司的顾客属于数据挖掘范畴。F
- 数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。T
- 多种属性相似度的综合度量,可以先对单个属性进行相似度度量,然后求所有属性相似度的均值作为整个对象相似度。T
- K均值聚类需要提前设定K值,而凝聚层次法不需要预先设置参数。T
- 在模型树的构建过程中,应选择使SDR值最小的属性。F
- k近邻方法不需要事先学习分类模型,当需要预测的时候,根据预测样本的特性和已知训练数据集中的数据进行类别的判断。T
- 凝聚层次聚类法中每次簇的合并可以更改。F
- 逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由大到小逐级进行的。F
- 给定最小支持度阈值minsup,一个频繁项集的所有非空子集都是频繁的。T
- 基于嫡的离散化方法是常用的有监督的离散化方法。T
- 根据顾客喜好摆放商品位置属于数据挖掘范畴。T
- 监视病人心率的异常变化属于数据挖掘范畴。T
- 在文献中,属性、维、特征和变量通常可以互换地使用。F
- 主成分分析能够达到去除冗余、降低噪音和降维的目的,但无法得到反映事物本质的新变量。F
- 采用分箱方法可以进行数据离散化。 T
- 摄氏温度属于比例属性。F
填空题
- 从存储方式对数据类型进行分类,可分为结构化数据和非结构化数据。
- 决策树中根结点的层次为1。
- 一组数据: 20,40,50,58,65,80,80,82,86,90,96,105,120,200。使用最大-最小法进行数据规范化,目标区间为[0,1],则80映射到新区间后的值为0.33。(四舍五入保留小数点后两位)
- 假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示,请计算该分类器的错误率,以类别yes为正例,计算分类器的查准率precision为60%。【保留到整数位】
15/25
-
回归与分类的区别在于: 回归可用于预测连续的目标变量,分类可用于预测离散的目标变量。
-
分类问题的基本流程可以分为训练和预测两个阶段。
-
构建一个机器学习框架的基本步骤:数据的加载、选择模型、模型的训练、模型预测、模型的评测、模型的保存。
-
回归分析是确定两种或两种以上变量间相互依赖关系的一种统计分析方法,是应用及其广泛的数据分析方法之一。
-
在机器学习的过程中,我们将原始数据划分为训练集、验证集、测试集之后,可用的数据将会大大地减少。为了解决这个问题,我们提出了交叉验证这样的解决办法。
-
当机器学习把训练样本学得“太好”的时候,可能已经把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,这样会导致泛化性能下降。这种现象在机器学习中称为过拟合。
-
聚类算法根据产生簇的机制不同,主要分成划分聚类、层次聚类、密度聚类三种算法。
-
数据挖掘中计算向量之间相关性时一般会用到距离度量?(答对3个即可)。欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离
-
根据属性的数值性质可将属性分为四种属性类型标称、序数、区间、比率。
-
数据集的维度是数据集中的属性数目。
-
数据集的维度是数据集中的属性数目。
-
抽样方法有简单随机抽样、分层抽样、渐进抽样、单随机。
-
特征加权是指另一种保留或删除特征的方法,权值越大,特征越重要,它在模型中起的作用越重要。
-
非监督离散化分为等宽、等频法、聚类方法。
-
区别分类与回归的关键特征是类标号必须是离散属性。
-
给定一个事务数据库,关联规则挖掘问题就是通过用户指定的最小支持度和最小置信度来寻找强关联规则的过程。
-
在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是数据仓库技术和数据挖掘技术。
-
预测的模型构建需要历史数据来进行分析。
-
分类就是根据有类别的数据提供的信息,来概括类别的主要特征,构建模型或者规则,根据该模型或者规则预测对象的类别。
-
等距离分箱可能导致属于某些区间的取值非常多,而某些区间的取值又非常少。等频则能够解决此问题。
-
回归系数的检验可以采用t检验。
-
轮廓系数是将凝聚度和分离度相结合的一种度量,越大聚类效果越好。
-
多媒体数据挖掘是一个交叉学科领域,涉及图像处理和理解、计算机视觉、数据挖掘和模式识别。
-
中列数是数据集的最大值和最小值的平均值。
-
x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0.2,0,1,1,0,1,0, 1),使用余弦相似度公式计算这两个向量之间的相似性等于0.9。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】
向量点乘/两个向量的长度积
-
特征性描述是指从某类对象关联的数据中提取这类对象的共同特征(属性)。
-
数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应。
-
Pandas的两种核心数据结构是:Series和DataFrame。
-
通常,在训练有监督的学习的机器学习模型的时候,会将数据划分为训练集和测试集,划分比例一般为0.75:0.25。(比例划分之间的符号是中文冒号并且之间没有空格,例如:0.00:0.00)
-
关联规则的挖掘过程主要包含两个阶段发现频繁项集和产生关联规则。
-
数据集的三个重要特性维度、稀疏性、分辨率。
-
分类模型的误差:泛化误差、训练误差。
-
为了评价一个分类模型的性能,我们通常根据分类模型判断一组已知类别的对象的类别,这些已知类别的对象构成的数据集称为测试集
-
预测的模型构建需要历史数据来进行分析。
-
根据属性所具有的数值性质不同可将属性分为定性属性和定量属性。
-
满足最小支持度和最小信任度的关联规则称为强关联规则。
-
可以降低产生频繁项集的计算复杂度两种方法为:减少候选项集的数目和减少比较/相比/对照/对比的次数。
-
关联规则挖掘问题可以划分成频繁项集产生和规则产生两个子问题。
-
Apriori算法有两个知名的性能瓶颈。分别是(1)0/1负载很大,需要多次扫描事务数据库。(2)可能产生庞大的候选集。
-
维归约是指数据预处理的一个重要动机是降低维度。
-
Jaccard系数适用于衡量用非对称二值属性描述的对象间的相似度。
-
预测建模有分类和回归两类,他们的区别在于分类用于预测离散的目标变量,而回归用于预测连续的目标变量。
-
数据挖掘模型一般分为有监督学习和无监督学习两大类。
-
分类算法针对某个测试数据集的有效性通常通过混淆矩阵来反映。
-
Python在调用efficient-apriori包中的apriori函数训练挖掘关联规则时,设定最小支持度的参数是min_support。
-
常用的降维算法有主成分分析、因子分析和独立成分分析。
-
知识发现是一个完整的数据分析过程,主要包括以下几个步骤:确定知识发现的目标、数据采集、数据探索、数据预处理、数据挖掘、模式评估。
-
使用主成分分析法进行数据属性特征提取中,每个新的特征是原有特征的线性组合。
-
第一个返回值频繁项集,第二个是关联规则。
-
对于回归分析中常见的过拟合现象,一般通过引入正则化项来改善,最有名的改进算法包括Ridge岭回归和Lasso套索回归。
以上是关于数据挖掘期末复习模拟题(暨考试题)的主要内容,如果未能解决你的问题,请参考以下文章