东大毕业生与大数据架构师的对决(结尾附视频)
Posted 一头小山猪
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了东大毕业生与大数据架构师的对决(结尾附视频)相关的知识,希望对你有一定的参考价值。
写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域,如今终有小成,愿将昔日所获与大家交流一二,希望对学习路上的你有所助益。同时,博主也想通过此次尝试打造一个完善的技术图书馆,任何与文章技术点有关的异常、错误、注意事项均会在末尾列出,欢迎大家通过各种方式提供素材。
- 对于文章中出现的任何错误请大家批评指出,一定及时修改。
- 有任何想要讨论和学习的问题可联系我:zhuyc@vip.163.com。
- 发布文章的风格因专栏而异,均自成体系,不足之处请大家指正。
东大毕业生与大数据架构师的对决(结尾附视频)
本文关键字:模拟面试、初入职场、直播回顾、山猪乱弹、大数据开发
文章目录
一、写在前面
各位小伙伴们大家好,期待已久的直播配套博文来啦~为了让大家能够更好的将所学的知识融会贯通,并且了解自己在工作中可能被问到的技术点,在粉丝群内开启了模拟面试活动。
- 面试形式
面试以直播的方式进行,按照正常的面试流程进行,但不同的是每个问题提问过后面试官将会进行讲解,而不仅仅是一问一答,不知对错。在后续的视频剪辑中也会标注问题和答案的关键点供大家参考。
每场面试结束后,面试者、面试官、主持人(山猪本猪)会和观众一起进入讨论和探讨环节,对面试过程中可以提升的沟通技巧、需要再继续深入了解的技术点、简历是否还可以继续优化以及扩展的技术问题进行互动(该段内容可能不会出现在最终的视频中)。
- 参加要求
只要已经加入粉丝群即可免费参加,需要准备一份个人简历,同时隐去自己的姓名、手机号等关键信息。模拟面试原则上不对应企业真实岗位,只是会按照岗位对应的技术等级来进行面试,但有些面试官所在的公司可能会有招人的需要,同样有直接获得就业岗位的机会!
如有意愿参加的小伙伴请提前在粉丝群与我沟通(群主就是我啦),无论你是刚刚毕业的职场小白,还是想要换一个新的工作环境,都欢迎踊跃参加。将会为你匹配对应岗位的资深开发者、技术总监、项目经理或是架构师进行面试,只为互相交流技术。
- 面试咖位
担任面试官的小伙伴都是多年以来在业内结识的朋友,如今大部分都可以独挡一面或是带团队,涵盖了大前端开发、Java服务端开发、Linux运维、大数据开发、大数据架构、测试、实施、产品、Python数据分析等等各个方面。
平均的工作年限在五年以上,其中不乏技术总监、项目经理、博客专家、前沿领域学者、大学讲师,当然有的时候我本人也会客串一下,期待和你的面试官邂逅吧~
二、全程回顾
由于时间的限制,每次的问题不会很多,以互动和交流为主,本系列文章不会做成面试大全,通篇都是问题汇总,而是会以文章+视频+总结的方式为大家持续呈现,希望这样能够更有代入感,看完这篇文章能够真正留下点什么,而不是进收藏夹吃灰。
1. 本期嘉宾
- 面试者
面试岗位:大数据开发工程师
工作年限:有一定实习经验
项目类型:综合数据处理系统-用户行为分析(统计分析、数据挖掘)
核心技术:大数据技术生态圈(Hadoop、Hive、Spark、Kafka、Flume、Azkaban等)、对接应用系统(SpringBoot、Bootstrap、Echarts等)
- 面试官
Level:大数据讲师/架构师,主攻大数据架构,有培训讲师经历。对大数据完成数据分析流程以及各组件的优缺点、应用场景十分熟悉。负责根据公司业务和运营的需要拟定合理的解决方案,并最终落地实施。
Base地:北京
薪资区间:月薪35K+
2. 技术看点
各技术点将从直播内容中进行整理,直接上干货,可能顺序上会有调整。给出的参考答案因为时间的关系都会比较凝练,建议大家不要直接去背,因为如果你从来就没有接触过是不能够用一个答案去应付面试的。遇到你会的当做复习,遇到你不会的一定自己去查一查,真正理解之后再回来自己补充和丰富答案。
- 基本的离线数据处理流程?(以面试者项目为例)
数据源类型:项目日志文件。
数据采集:使用Flume + Kafka从日志服务器采集数据,存放至HDFS。
数仓搭建:ODS层(存放原始数据) - 操作型数据存储、DWD层(初步数据清洗) - 数据仓库明细层、DWS层 - 数据仓库汇总层、ADS层(报表信息) - 应用数据存储层。
结果导出:Spark -》 mysql
定时任务:Azkaban
- 数据处理都经历了哪些阶段?
数据采集 -》 数据预处理(去噪、去重、单位统一) -》 数据入库(数仓 - 划分主题) -》 报表展示
- 在数仓中划分主题时的依据是什么?
按业务线划分
按部门划分
其他划分方式
- 在进行数据采集时需要注意哪些问题?
保证数据采集稳定性(可靠性)
避免数据的丢失或重复采集
数据源类型复杂
数据源结构有可能产生变化
Flume:Source、Channel、Sink
- HDFS有哪些特点?
HDFS(Hadoop Distributed File System):分布式文件系统
支持分布式、采用块存储、冗余存储机制
考虑安全性、稳定性、扩展性
- Hive的优化方式有哪些?
避免使用部分原生API
使用自定义函数(UDAF、UDTF)
合理指定MR的Task数量
LZO数据压缩、小文件合并
合理使用本地模式
启用JVM重用
连接查询优化:小表在前、大表在后,使用相同连接键,数据尽早过滤
- 如何解决数据倾斜问题?
增加分配的内存
增加Reduce的个数
自定义分区器
对Key进行重新设计(打散)
自定义Combiner
单独处理倾斜数据
- 如何评判DW层的设计质量?
表间关系简明
表的复用性高
适当冗余(构建宽表)
3. 总结扩展
- 对面试者的评价?
基础很扎实,清楚底层原理,并且能进行独立的思考,薪资可达20K。
- 大厂面试特点?
重视基础:编程语言、数据结构、计算机网络、算法等。
- 如何回答大数据场景设问?
在熟悉各大数据组件特点的前提下,充分分析给出的场景,根据各组件的特点构建出一个完整的数据分析流程。因为很有可能之前并没有接触过这个场景,尽量的贴合,保证合理即可。
4. 山猪乱弹
这次面试的小伙伴本身就比较优秀,之前已经在美团的大数据岗位工作过一段时间。在回答问题的时候也是自信满满,并且对不了解的问题也会坦诚的说自己没有接触过,随后尽量的说一些自己的想法。
在面试的过程中,其实不需要在意是否能够百分百的回答出所有的问题。因为对于刚走入职场的小伙伴,面试官和面试者的实力通常都是不对等的,有些工作中才会遇到的问题,被问到了,回答的不是很完美也没有关系。在面试结束后一定要多总结,不单单是整理面试题,而是什么样的公司、岗位通常会问什么样的问题,这样在准备的时候可以更有针对性。大家也可以持续关注本专栏。
三、视频直达
视频地址:https://www.bilibili.com/video/BV1AA411j7e7,喜欢的小伙伴儿一定要三连加关注哦~
模拟面试系列:斩获多个大厂Offer的东大毕业生与大数据架构师的对决
写在结尾:作者力求做到将每个知识点细化,并且对于有关联的知识点都会使用传送门挂载链接。文章采用:“文字 + 配图 + 视频”的方式来进行展现,均是挤时间所作,希望看到这里能留下评论点个赞,略表支持!
扫描下方二维码,加入官方粉丝微信群,可以与我直接交流,还有更多福利哦~
以上是关于东大毕业生与大数据架构师的对决(结尾附视频)的主要内容,如果未能解决你的问题,请参考以下文章