大家都来看,一线大厂招收大数据工程师,面试都会问到哪些知识点
Posted javatiange
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大家都来看,一线大厂招收大数据工程师,面试都会问到哪些知识点相关的知识,希望对你有一定的参考价值。
前言
大家都来看看,大数据工程师月薪2-3万,需要什么学历和专业,还需要掌握哪些技能。
看完之后,是不是感觉自己要学习的东西还有很多?要是你,你能拿稳这份工作嘛?
不管能不能,都得抓紧时间来学习提升自己,提高自己的价值,拿到自己满意的offer。
但是,想拿到满意的offer,也需要自己有丰富的面试经验和知识储备。
接下来,我就给大家分享,自己精心整理的一线大厂(BAT)25道大数据面试题和答案,希望大家能够喜欢,还有学习大数据需要学习的技术知识文档。
一、大数据面试题及答案
1、kafka的message包括哪些信息?
2、怎么查看kafka的offset?
3、hadoop的shuffle过程
4、spark集群运算的模式
5、HDFS读写数据的过程
6、RDD中reduceBykey与groupByKey哪个性能好,为什么
7、spark2.0的了解
8、 rdd 怎么分区宽依赖和窄依赖
9、spark streaming 读取kafka数据的两种方式
10、kafka的数据存在内存还是磁盘
11、怎么解决kafka的数据丢失
12、fsimage和edit的区别?
13、列举几个配置文件优化?
14、datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要namenode
执行格式化操作,这样处理的原因是?15、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么?
16、hadoop的优化?
17、设计题
18、有 10 个文件,每个文件 1G,每个文件的每一行存放的都是用户的 query,每个文件的query 都可能重复。要求你按照
query 的频度排序。 还是典型的 TOP K 算法,19、在 2.5 亿个整数中找出不重复的整数,注,内存不足以容纳这 2.5 亿个整数。
20、腾讯面试题:给 40 亿个不重复的 unsigned int 的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那 40
亿个数当中?21、怎么在海量数据中找出重复次数最多的一个?
22、上千万或上亿数据(有重复),统计其中出现次数最多的钱 N 个数据。
23、一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前 10 个词,给出思想,给出时间复杂度分析。
24、100w 个数中找出最大的 100 个数。
25、有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。 请用 5 分钟时间,找出重复出现最多的前 10 条。
二、学习大数据需要学习的技术文档
大数据全家桶:Hadoop,Spark,Strom,Druid实战,机器学习算法,离线和实时大数据开发实战,大数据算法,机器学习到此就已经整理完毕,希望大家能够喜欢。
大家如果需要这些大数据面试题和大数据技术文档的话,可以在下方自行领取!
需要完整版文档的小伙伴,可以一键三连,下方获取免费领取方式!
以上是关于大家都来看,一线大厂招收大数据工程师,面试都会问到哪些知识点的主要内容,如果未能解决你的问题,请参考以下文章