大数据分析师题库整理（Part One）

Posted 2021-10-21 Dylan~

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据分析师题库整理（Part One）相关的知识，希望对你有一定的参考价值。

Day 01

16.下列哪个属性是hdfs-site.xml中的配置 dfs.replication

17.以下不属于监督学习模型的是关联分析

18.以下四项指标中，不能用于线性回归中的模型比较的是 R方

19.以下选项不属于原始数据来源的是统计年鉴

20.以下选项哪个不属于分类算法 K-MEANS

21.以下选项中，哪个有可能是Apriori算法所挖掘出来的结果? 以上都不是

22.针对聚类分析，下面说法错误的是一定存在一个最优的分类

23.HDFS中的数据块(block ）默认保存几份? 3份

24.Hadoop集群中存在的最主要瓶颈是。磁盘

25.以下哪个不是Spark的分布式部署方式? Spark on local

26.Hive是以()技术为基础的数据仓库。HBase

27.以下哪个操作是hive不支持的? 表删除列

28.以下对hive中表数据操作描述正确的是。hive不可以修改特定行值、列值

29.Hive中以下操作不正确的是。insert overwrite into table name

30.下面与Zookeeper类似的框架是哪一个? Chubby

Day 02

61.马斯洛需求理论将人的需求从低到高依次排序是

生理需要；安全需要；社交需要；自尊需要；自我实现需要

62.分类通常会把模型数据集拆分成两个部分，其中一个部分用来评估模型好与不好这个部分叫做训练集

63.下列不属于非平稳时间序列的确定性因素是规则变动

Ps：非平稳时间序列：（1）长期趋势（2）循环波动（3）季节性变化（4）随机波动

64.时间序列模型不能应用到以下哪种情况。决策和控制

65.以下不属于时间序列平滑法预测的方法是 Winter预测法

66.以下不属于随机森林算法特点的是模型的运行速度不快

67.以下不属于消费者购买行为分析的产品因素的是便利信息

68.显著性检验中的P值小于多少时，可以认定为绝对显著相关。0.001

69.以下哪个不属于数据分析报告的开篇部分。索引

70.以下哪个部分不是一篇数据分析报告必须有的。附录

71.用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是

时事运营报告

72.关于MapReduce的说法正确的是

MapReduce1.0既是一个计算框架，也是一个资源管理调度框架

73.关于Hadoop MapReduce 分片( spit)概念，下列说法不正确的

分片是一个物理概念

74.Hadoop组件在企业应用中，能用于数据挖掘的产品有 Mahout

75.在Spark生态组件中，哪个产品可用于基于实时数据流的数据处理

Spark Streaming

Day 03

106.将复杂的通讯地址简化成东、南、西、北、中五个类别，是在

进行? 数据离散化

107.矩估计的基本原理是()。用样本矩估计总体矩

108.缺失数据（Null Value)的具体处理方法有很多种，下列哪种方法可得到较准确的结果?()

对于机器学习来说：把填补缺值的问题当作是分类或预测的问题

对于数据分析来说：填入该属性的中值

109.使用多个分类器的预测来提高分类准确率的技术称为集成

110.数据挖掘分析中将原始数据分为训练数据集和测试数据集两部分，其中训练数据集的作用是用于构造预测模型。

111.统计图形中，常用于检查异常值的是箱线图

112.下表为一交易数据，请问a → c的支持度(Support)为 0.5

TID ltemsBought

1 a,b,c

2 a,c

3 a,e

4 b,e,g

113.下列有关回归分析的说法，错误的是

所有非线性回归都可以转换成线性回归

114.小王养了一头猪和一只鸡，一天，猪问鸡:“主人去哪里了”，猪含泪答道:“去买粉条了”。鸡很同情的说:“老弟，来世再见。”以上对话体现了数据分析方法中的关联

115.已知 a={a, b, d}是满足最小支持度的频繁项集，若不考虑置信度，由α可产生关联规则的数量为 3

116.以下表述错误的是决策树算法对于噪声的干扰非常敏感

117.以下哪一项属于时间序列可以解决的问题移动公司将用户分为数个群体

118.以下算法中，不属于基于原型的聚类算法的是 CLIQUE

119.以下有关数据清洗的表述中，正确的是

运用训练数据集中变量的统计量对验证集中的变量进行数据清洗

120.以下针对缺失值的处理方法中，当一个连续变量缺失值超过85%，则哪种最合理?

根据是否缺失，生成指示变量，仅使用指示变量作为解释变量

Day 04

151.指数平滑法中，下面哪个指标可以反映对时间序列资料的修正程度

平滑常数

152.Hbase中的Compaction过程发生在什么时候 Memstore发生flush的时候

153.Hbase中以下对于LSM的描述正确的是 LSM的读操作和写操作是独立

154.如果要给队列QueueA设置容量为30%，应该设置哪个参数

yarn.scheduler.capacity.root.QueueA.capacity

155.Spark是用以下哪种编程语言实现的 Scala

156.关于Hive中的桶说法不正确的是每个桶是一个目录

157.哪一项不属于Hive的流控特性已建立的连接数做阈值控制

158.下面对Streaming中基础概念说法不正确的是

Topology是streaming中运行的一个实时应用程序

159.Flume支持多级级联的sink类型是 HDFS Sink

160.关于Kafka的基本概念描述错误的是

每个Consumer属于多个的Consumer Group

161.如下哪项不是ZooKeeper的关键特性等待无关性

162.下列选项中无法通过大数据技术实现的是运营分析

163.假设每个用户最低资源保障设置为yarn, scheduler ,

capacity,root,QueueAminimum-user-limit-percent=24，则以下说法错误的是

第5个用户提交任务时，每个用户最多获得20%的资源

164.Spark自带的资源管理框架是 Mesos

165.关于RDD,下列说法错误的是 RDD默认储存在磁盘

Day 05

196.Fusioninsight Manager用户权限管理不支持哪个配置给用户组配置权限

197.以下哪个不属于Hadoop 中Mapreduce组件的特点实时计算

198. Hbase的某张表的Rowkey划分splitkey为9.E.a.2.请问表里面有几个Region 4

199.为了保障流应用的快照存储的可靠性,快照主要存储在哪里

Hdfs中

200.在fusionInsigh产品中,关于kafka的 topic.以下描述不正确的是

每个+topic+只能被分成一个partition区

201.Kafka集群在运行期间,直接依赖于下面哪些组件 Hbase

202.关于fusioninsight master界面hive日志收集的描述中,哪个不对

可指定特定用户进行日志收集,例如仅下载user用户的日志

203.fusioninsight 对于管理操作,下列错误的是常用服务隐藏或显示

204.在Webhcat架构中,用户能够通过安全的HTTPS协议执行以下哪些操作

以上全部正确

205.在Flink技术架构中,以下哪项是流处理和批处理的计算引擎 Runtime

206. spark的核心模块是 spark core

207.hbase的底层数据以()的形式存在的 key-value

208.Kafka Cluster Mirroring工具可以实现以下哪些功能

Kafka跨集群数据同步方案

209.硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制。默认情况下HDFS会存()份 3

210.关于HIVE的描述不正确的

HIVE可以实现大规模数据集上实现低延迟快速的查询

以上是关于大数据分析师题库整理（Part One）的主要内容，如果未能解决你的问题，请参考以下文章

吐血整理！内部包含大数据机器学习推荐系统实战资料，仅分享一次！

上海2020高考招生计划大数据分析报告

大数据开发常用的大数据分析软件有什么？

[Spark/Scala] 180414|大数据实战培训 Spark大型项目实战：电商用户行为分析大数据平台大数据视频教程

大数据分析师就业前景及薪资待遇！