大数据开发工程师笔试题

Posted 闭关苦炼内功

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据开发工程师笔试题相关的知识,希望对你有一定的参考价值。

1,下面哪个程序负责 HDFS 数据存储?
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker

2,下列哪个程序通常与NameNode 在一个节点启动?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker

3,下列哪项通常是集群的最主要瓶颈
a)CPU
b)网络
c)磁盘 IO
d)内存

4,HBase 依靠什么存储底层数据
a) HDFS
b) Hadoop
c) Memory
d) MapReduce

5,LSM 含义是?
a) 日志结构合并树
b) 二叉树
c) 平衡二叉树
d) 长平衡二叉树

6,关于 HBase 二级索引的描述,哪些是正确的?
a) 核心是倒排表
b) 二级索引概念是对应 Rowkey 这个“一级”索引
c) 二级索引使用平衡二叉树
d) 二级索引使用 LSM 结构

7,解压.tar.gz 结尾的 HBase 压缩包使用的 Linux 命令是?

a) tar-zxvf
b) tar -zx
c) tar -s
d) tar –nf

8,请简述一下HDFS的体系结构。

9,如何使用MapReduce实现两个表join,可以考虑一下几种情况:(1)一个表大,一个表小(可放到内存中);(2)两个表都是大表?

10,insert into 和 override write区别?

11,flume不采集nginx日志,通过Logger4j采集日志,优缺点是什么?

12,请简述一下Spark应用转换流程

13,Redis,传统数据库,hbase,hive 每个之间的区别是什么?

14,用mapreduce来实现下面需求?
现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。

15,现有一个log文件,其中每一行格式如下(存在‘=’后面为空的情况,如第二行,需要转换成"null")
project_id=test&page_id=mobile_home&action=view&widget_id=mb_home_top_rec&content_version=1&country=pl&language=pl
project_id=test&page_id=mobile_home&action=view&widget_id=&content_version=1&country=pl&language=pl
请编写函数,读取该文本文件,并处理成RDD[Map]格式返回,函数格式如下,请编写{}中代码实现功能。

def processData(spark: SparkSession, readPath: String) = { }

16,
uid subject_id score
1001 01 90
1001 02 90
1001 03 90
1002 01 85
1002 02 85
1002 03 70
1003 01 70
1003 02 70
1003 03 85

请找出所有科目成绩都大于某一学科平均成绩的学生,编写SQL完成要求。

17,使用Java语言实现二分查找

以上是关于大数据开发工程师笔试题的主要内容,如果未能解决你的问题,请参考以下文章

复盘鼎甲科技2020web开发工程师-笔试题(校招)

003_C/C++笔试题_分享大汇总

数据挖掘顺丰科技2022年秋招大数据挖掘与分析工程师笔试题

软件测试工程师笔试题带答案

asp.net 部分面试问题总结(附答案),比大篇幅的笔试题管用

面试乐融集团Python开发工程师有感