Spark 练习测试题(答案仅供参考)

Posted 2021-08-02 Aurora1217

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark 练习测试题(答案仅供参考)相关的知识，希望对你有一定的参考价值。

选择题

1. spark 的四大组件下面哪个不是 (D)
A.Spark Streaming B MLlib C Graph X D Spark R

2. Hadoop框架的缺陷有 (ABC)
A.表达能力有限，MR编程框架的限制
B.过多的磁盘操作，缺乏对分布式内存的支持
C.无法高效低支持迭代式计算
D.海量的数据存储

3. 与hadoop相比，Spark主要有以下哪些优点（ABCD）
A. 提供多种数据集操作类型而不仅限于MapReduce
B. 数据集中式计算而更加高效
C. 提供了内存计算，带来了更高的迭代运算效率
D. 基于DAG的任务调度执行机制

4. YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上，具有哪些优点（ABCD）
A. 计算资源按需伸缩
B. 不同负载应用混搭，集群利用
C. 共享底层存储，避免数据跨集群迁移
D. 大大降低了运维成本

5.spark的特点包括（ABD）
A. 快速
B. 通用
C. 可延伸
D. 兼容性

6.以下哪个不是Spark的组件（B）
A.DAGScheduler
B.MultiScheduler
C.TaskScheduler
D.SparkContext

7. Master 的 ElectedLeader 事件后不做哪些操作（ABC）
A. 通知 driver
B. 通知 worker
C. 注册 application
D. 直接 ALIVE

8. Spark driver的功能是什么（ABD）
A. 是作业的主进程
B. 负责了作业的调度
C. 负责向HDFS申请资源
D. 负责作业的解析

9. Task 运行在下来哪里个选项中 Executor 上的工作单元（C）
A. Driver program
B. spark master
C. worker node
D. Cluster manager

10. ClusterManager是 ( A )
A.主节点
B.从节点
C.执行器
D.上下文

11.Stage 的 Task 的数量由什么决定 ( A)
A.Partition B.Job C.Stage D.TaskScheduler

12. SparkContext可以从哪些位置读取数据（ ACD ）
A.本地磁盘
B.web
C.hdfs
D.内存

13. 下面哪个不是 RDD 的特点（C）
A. 可分区
B. 可序列化
C. 可修改
D. 可持久化

14.RDD有哪些缺陷? ( AD )
A. 不支持细粒度的写和更新操作(如网络爬虫)
B. 基于内存的计算
C. 拥有schema信息
D. 不支持增量迭代计算

15. 下面哪个操作是窄依赖（B）
A. join
B. filter
C. group
D. sort

16.下面哪个操作肯定是宽依赖 (C )
A. map
B. flatMap
C. reduceByKey
D. sample

17.Spark 的集群部署模式不包括 ( D )
A. standalone B. spark on mesos C. spark on YARN D. Local

18. 下列哪个不是 RDD 的缓存方法（C）
A. persist()
B. Cache()
C. Memory()
D. 以上都不是

19. Spark默认的存储级别（A）
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER

20. 要读取people.json文件生成DataFrame，可以使用下列那些命令（AC）
A. spark.read.json("people.json")
B. spark.read.text("people.json")
C. spark.read.format("json").load("people.json")
D. spark.read.format("csv").load("people.json")

21. DataFrame 和 RDD 最大的区别（B）
A. 科学统计支持
B. 多了 schema
C. 存储方式不一样
D. 外部数据源支持

22. Spark SQL支持读取那些类型的文件（ABC）
A. text
B. json
C. parquet

23. 从RDD转换得到DataFrame包含两种典型的方法，分别是（AB）
A.利用反射机制推断RDD模式
B.使用编程方式定义RDD模式
C.利用投影机制推断RDD模式
D.利用互联网机制推断RDD模式

24. 流计算的处理流程（BCD）
A. 实时数据存储
B.实时数据计算
C.实时查询服务
D.实时数据采集

25. SparkStreaming的基本输入源有哪几种（ACD）
A. 文件流
B. kafka
C. 套接字流
D. RDD队列流

26. MLlib包括（ ABCD ）
A. 分类模型
B. 聚类模型
C. 特征抽取
D. 统计模型

27.下面关于Spark MLlib库的描述正确的是（AC）
A. MLlib库从1.2版本以后分为两个包：spark.mllib和spark.ml
B. spark.mllib包含基于DataFrame的原始算法API
C. spark.mllib包含基于RDD的原始算法API
D. spark.ml则提供了基于RDD的、高层次的API

判断题

1. standalone(集群模式)典型的Mater/slave模式，Master可能有单点故障的；Spark支持ZooKeeper来实现 HA。（正确）

2. 构造数据Schema模式可以添加数据的列名称（正确）

3. Spark Streaming支持RDD的所有算子（正确）

4. Pipeline被设计用来管理一系列的阶段，每一个阶段都由PipelineStage来表示。（正确）

5. Spark ML提供两种类型的transformers：特征transformer和机器学习模型。（正确）

如有问题，可以评论区指正，私信也行

以上是关于Spark 练习测试题(答案仅供参考)的主要内容，如果未能解决你的问题，请参考以下文章