东大毕业生与大数据架构师的对决（结尾附视频）

Posted 2022-03-04 一头小山猪

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了东大毕业生与大数据架构师的对决（结尾附视频）相关的知识，希望对你有一定的参考价值。

写在前面：博主是一只经过实战开发历练后投身培训事业的“小山猪”，昵称取自动画片《狮子王》中的“彭彭”，总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。同时，博主也想通过此次尝试打造一个完善的技术图书馆，任何与文章技术点有关的异常、错误、注意事项均会在末尾列出，欢迎大家通过各种方式提供素材。

对于文章中出现的任何错误请大家批评指出，一定及时修改。
有任何想要讨论和学习的问题可联系我：zhuyc@vip.163.com。
发布文章的风格因专栏而异，均自成体系，不足之处请大家指正。

东大毕业生与大数据架构师的对决（结尾附视频）

本文关键字：模拟面试、初入职场、直播回顾、山猪乱弹、大数据开发

文章目录

东大毕业生与大数据架构师的对决（结尾附视频）

一、写在前面

各位小伙伴们大家好，期待已久的直播配套博文来啦~为了让大家能够更好的将所学的知识融会贯通，并且了解自己在工作中可能被问到的技术点，在粉丝群内开启了模拟面试活动。

面试形式

面试以直播的方式进行，按照正常的面试流程进行，但不同的是每个问题提问过后面试官将会进行讲解，而不仅仅是一问一答，不知对错。在后续的视频剪辑中也会标注问题和答案的关键点供大家参考。
每场面试结束后，面试者、面试官、主持人（山猪本猪）会和观众一起进入讨论和探讨环节，对面试过程中可以提升的沟通技巧、需要再继续深入了解的技术点、简历是否还可以继续优化以及扩展的技术问题进行互动（该段内容可能不会出现在最终的视频中）。

参加要求

只要已经加入粉丝群即可免费参加，需要准备一份个人简历，同时隐去自己的姓名、手机号等关键信息。模拟面试原则上不对应企业真实岗位，只是会按照岗位对应的技术等级来进行面试，但有些面试官所在的公司可能会有招人的需要，同样有直接获得就业岗位的机会！
如有意愿参加的小伙伴请提前在粉丝群与我沟通（群主就是我啦），无论你是刚刚毕业的职场小白，还是想要换一个新的工作环境，都欢迎踊跃参加。将会为你匹配对应岗位的资深开发者、技术总监、项目经理或是架构师进行面试，只为互相交流技术。

面试咖位

担任面试官的小伙伴都是多年以来在业内结识的朋友，如今大部分都可以独挡一面或是带团队，涵盖了大前端开发、Java服务端开发、Linux运维、大数据开发、大数据架构、测试、实施、产品、Python数据分析等等各个方面。
平均的工作年限在五年以上，其中不乏技术总监、项目经理、博客专家、前沿领域学者、大学讲师，当然有的时候我本人也会客串一下，期待和你的面试官邂逅吧~

二、全程回顾

由于时间的限制，每次的问题不会很多，以互动和交流为主，本系列文章不会做成面试大全，通篇都是问题汇总，而是会以文章+视频+总结的方式为大家持续呈现，希望这样能够更有代入感，看完这篇文章能够真正留下点什么，而不是进收藏夹吃灰。

1. 本期嘉宾

面试者

面试岗位：大数据开发工程师
工作年限：有一定实习经验
项目类型：综合数据处理系统-用户行为分析（统计分析、数据挖掘）
核心技术：大数据技术生态圈（Hadoop、Hive、Spark、Kafka、Flume、Azkaban等）、对接应用系统（SpringBoot、Bootstrap、Echarts等）

面试官

Level：大数据讲师/架构师，主攻大数据架构，有培训讲师经历。对大数据完成数据分析流程以及各组件的优缺点、应用场景十分熟悉。负责根据公司业务和运营的需要拟定合理的解决方案，并最终落地实施。
Base地：北京
薪资区间：月薪35K+

2. 技术看点

各技术点将从直播内容中进行整理，直接上干货，可能顺序上会有调整。给出的参考答案因为时间的关系都会比较凝练，建议大家不要直接去背，因为如果你从来就没有接触过是不能够用一个答案去应付面试的。遇到你会的当做复习，遇到你不会的一定自己去查一查，真正理解之后再回来自己补充和丰富答案。

基本的离线数据处理流程？（以面试者项目为例）

数据源类型：项目日志文件。
数据采集：使用Flume + Kafka从日志服务器采集数据，存放至HDFS。
数仓搭建：ODS层（存放原始数据） - 操作型数据存储、DWD层（初步数据清洗） - 数据仓库明细层、DWS层 - 数据仓库汇总层、ADS层（报表信息） - 应用数据存储层。
结果导出：Spark -》 mysql
定时任务：Azkaban

数据处理都经历了哪些阶段？

数据采集 -》数据预处理（去噪、去重、单位统一） -》数据入库（数仓 - 划分主题） -》报表展示

在数仓中划分主题时的依据是什么？

按业务线划分
按部门划分
其他划分方式

在进行数据采集时需要注意哪些问题？

保证数据采集稳定性（可靠性）
避免数据的丢失或重复采集
数据源类型复杂
数据源结构有可能产生变化
Flume：Source、Channel、Sink

HDFS有哪些特点？

HDFS（Hadoop Distributed File System）：分布式文件系统
支持分布式、采用块存储、冗余存储机制
考虑安全性、稳定性、扩展性

Hive的优化方式有哪些？

避免使用部分原生API
使用自定义函数（UDAF、UDTF）
合理指定MR的Task数量
LZO数据压缩、小文件合并
合理使用本地模式
启用JVM重用
连接查询优化：小表在前、大表在后，使用相同连接键，数据尽早过滤

如何解决数据倾斜问题？

增加分配的内存
增加Reduce的个数
自定义分区器
对Key进行重新设计（打散）
自定义Combiner
单独处理倾斜数据

如何评判DW层的设计质量？

表间关系简明
表的复用性高
适当冗余（构建宽表）

3. 总结扩展

对面试者的评价？

基础很扎实，清楚底层原理，并且能进行独立的思考，薪资可达20K。

大厂面试特点？

重视基础：编程语言、数据结构、计算机网络、算法等。

如何回答大数据场景设问？

在熟悉各大数据组件特点的前提下，充分分析给出的场景，根据各组件的特点构建出一个完整的数据分析流程。因为很有可能之前并没有接触过这个场景，尽量的贴合，保证合理即可。

4. 山猪乱弹

这次面试的小伙伴本身就比较优秀，之前已经在美团的大数据岗位工作过一段时间。在回答问题的时候也是自信满满，并且对不了解的问题也会坦诚的说自己没有接触过，随后尽量的说一些自己的想法。
在面试的过程中，其实不需要在意是否能够百分百的回答出所有的问题。因为对于刚走入职场的小伙伴，面试官和面试者的实力通常都是不对等的，有些工作中才会遇到的问题，被问到了，回答的不是很完美也没有关系。在面试结束后一定要多总结，不单单是整理面试题，而是什么样的公司、岗位通常会问什么样的问题，这样在准备的时候可以更有针对性。大家也可以持续关注本专栏。

三、视频直达

视频地址：https://www.bilibili.com/video/BV1AA411j7e7，喜欢的小伙伴儿一定要三连加关注哦~

模拟面试系列：斩获多个大厂Offer的东大毕业生与大数据架构师的对决

写在结尾：作者力求做到将每个知识点细化，并且对于有关联的知识点都会使用传送门挂载链接。文章采用：“文字 + 配图 + 视频”的方式来进行展现，均是挤时间所作，希望看到这里能留下评论点个赞，略表支持！

扫描下方二维码，加入官方粉丝微信群，可以与我直接交流，还有更多福利哦~

以上是关于东大毕业生与大数据架构师的对决（结尾附视频）的主要内容，如果未能解决你的问题，请参考以下文章

腾讯位置 - 地点搜索（结尾附视频）

腾讯位置 - 地图构建入门（结尾附视频）

前端leader找我谈心：我是如何从刚毕业的前端菜鸟一步步成长为前端架构师的？

Tomcat设置开机启动 - CentOS（结尾附视频）

腾讯位置 - 地址解析（结尾附视频）

腾讯位置 - 逆地址解析（结尾附视频）