东大毕业生与大数据架构师的对决(结尾附视频)

Posted 一头小山猪

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了东大毕业生与大数据架构师的对决(结尾附视频)相关的知识,希望对你有一定的参考价值。

写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域,如今终有小成,愿将昔日所获与大家交流一二,希望对学习路上的你有所助益。同时,博主也想通过此次尝试打造一个完善的技术图书馆,任何与文章技术点有关的异常、错误、注意事项均会在末尾列出,欢迎大家通过各种方式提供素材。

  • 对于文章中出现的任何错误请大家批评指出,一定及时修改。
  • 有任何想要讨论和学习的问题可联系我:zhuyc@vip.163.com。
  • 发布文章的风格因专栏而异,均自成体系,不足之处请大家指正。

东大毕业生与大数据架构师的对决(结尾附视频)

本文关键字:模拟面试、初入职场、直播回顾、山猪乱弹、大数据开发

文章目录

一、写在前面

各位小伙伴们大家好,期待已久的直播配套博文来啦~为了让大家能够更好的将所学的知识融会贯通,并且了解自己在工作中可能被问到的技术点,在粉丝群内开启了模拟面试活动。

  • 面试形式

面试以直播的方式进行,按照正常的面试流程进行,但不同的是每个问题提问过后面试官将会进行讲解,而不仅仅是一问一答,不知对错。在后续的视频剪辑中也会标注问题和答案的关键点供大家参考。
每场面试结束后,面试者、面试官、主持人(山猪本猪)会和观众一起进入讨论和探讨环节,对面试过程中可以提升的沟通技巧、需要再继续深入了解的技术点、简历是否还可以继续优化以及扩展的技术问题进行互动(该段内容可能不会出现在最终的视频中)。

  • 参加要求

只要已经加入粉丝群即可免费参加,需要准备一份个人简历,同时隐去自己的姓名、手机号等关键信息。模拟面试原则上不对应企业真实岗位,只是会按照岗位对应的技术等级来进行面试,但有些面试官所在的公司可能会有招人的需要,同样有直接获得就业岗位的机会!
如有意愿参加的小伙伴请提前在粉丝群与我沟通(群主就是我啦),无论你是刚刚毕业的职场小白,还是想要换一个新的工作环境,都欢迎踊跃参加。将会为你匹配对应岗位的资深开发者、技术总监、项目经理或是架构师进行面试,只为互相交流技术。

  • 面试咖位

担任面试官的小伙伴都是多年以来在业内结识的朋友,如今大部分都可以独挡一面或是带团队,涵盖了大前端开发、Java服务端开发、Linux运维、大数据开发、大数据架构、测试、实施、产品、Python数据分析等等各个方面。
平均的工作年限在五年以上,其中不乏技术总监、项目经理、博客专家、前沿领域学者、大学讲师,当然有的时候我本人也会客串一下,期待和你的面试官邂逅吧~

二、全程回顾

由于时间的限制,每次的问题不会很多,以互动和交流为主,本系列文章不会做成面试大全,通篇都是问题汇总,而是会以文章+视频+总结的方式为大家持续呈现,希望这样能够更有代入感,看完这篇文章能够真正留下点什么,而不是进收藏夹吃灰。

1. 本期嘉宾

  • 面试者

面试岗位:大数据开发工程师
工作年限:有一定实习经验
项目类型:综合数据处理系统-用户行为分析(统计分析、数据挖掘)
核心技术:大数据技术生态圈(Hadoop、Hive、Spark、Kafka、Flume、Azkaban等)、对接应用系统(SpringBoot、Bootstrap、Echarts等)

  • 面试官

Level:大数据讲师/架构师,主攻大数据架构,有培训讲师经历。对大数据完成数据分析流程以及各组件的优缺点、应用场景十分熟悉。负责根据公司业务和运营的需要拟定合理的解决方案,并最终落地实施。
Base地:北京
薪资区间:月薪35K+

2. 技术看点

各技术点将从直播内容中进行整理,直接上干货,可能顺序上会有调整。给出的参考答案因为时间的关系都会比较凝练,建议大家不要直接去背,因为如果你从来就没有接触过是不能够用一个答案去应付面试的。遇到你会的当做复习,遇到你不会的一定自己去查一查,真正理解之后再回来自己补充和丰富答案。

  • 基本的离线数据处理流程?(以面试者项目为例)

数据源类型:项目日志文件。
数据采集:使用Flume + Kafka从日志服务器采集数据,存放至HDFS。
数仓搭建:ODS层(存放原始数据) - 操作型数据存储、DWD层(初步数据清洗) - 数据仓库明细层、DWS层 - 数据仓库汇总层、ADS层(报表信息) - 应用数据存储层。
结果导出:Spark -》 mysql
定时任务:Azkaban

  • 数据处理都经历了哪些阶段?

数据采集 -》 数据预处理(去噪、去重、单位统一) -》 数据入库(数仓 - 划分主题) -》 报表展示

  • 在数仓中划分主题时的依据是什么?

按业务线划分
按部门划分
其他划分方式

  • 在进行数据采集时需要注意哪些问题?

保证数据采集稳定性(可靠性)
避免数据的丢失或重复采集
数据源类型复杂
数据源结构有可能产生变化
Flume:Source、Channel、Sink

  • HDFS有哪些特点?

HDFS(Hadoop Distributed File System):分布式文件系统
支持分布式、采用块存储、冗余存储机制
考虑安全性、稳定性、扩展性

  • Hive的优化方式有哪些?

避免使用部分原生API
使用自定义函数(UDAF、UDTF)
合理指定MR的Task数量
LZO数据压缩、小文件合并
合理使用本地模式
启用JVM重用
连接查询优化:小表在前、大表在后,使用相同连接键,数据尽早过滤

  • 如何解决数据倾斜问题?

增加分配的内存
增加Reduce的个数
自定义分区器
对Key进行重新设计(打散)
自定义Combiner
单独处理倾斜数据

  • 如何评判DW层的设计质量?

表间关系简明
表的复用性高
适当冗余(构建宽表)

3. 总结扩展

  • 对面试者的评价?

基础很扎实,清楚底层原理,并且能进行独立的思考,薪资可达20K。

  • 大厂面试特点?

重视基础:编程语言、数据结构、计算机网络、算法等。

  • 如何回答大数据场景设问?

在熟悉各大数据组件特点的前提下,充分分析给出的场景,根据各组件的特点构建出一个完整的数据分析流程。因为很有可能之前并没有接触过这个场景,尽量的贴合,保证合理即可。

4. 山猪乱弹

这次面试的小伙伴本身就比较优秀,之前已经在美团的大数据岗位工作过一段时间。在回答问题的时候也是自信满满,并且对不了解的问题也会坦诚的说自己没有接触过,随后尽量的说一些自己的想法。
在面试的过程中,其实不需要在意是否能够百分百的回答出所有的问题。因为对于刚走入职场的小伙伴,面试官和面试者的实力通常都是不对等的,有些工作中才会遇到的问题,被问到了,回答的不是很完美也没有关系。在面试结束后一定要多总结,不单单是整理面试题,而是什么样的公司、岗位通常会问什么样的问题,这样在准备的时候可以更有针对性。大家也可以持续关注本专栏。

三、视频直达

视频地址:https://www.bilibili.com/video/BV1AA411j7e7,喜欢的小伙伴儿一定要三连加关注哦~

模拟面试系列:斩获多个大厂Offer的东大毕业生与大数据架构师的对决

写在结尾:作者力求做到将每个知识点细化,并且对于有关联的知识点都会使用传送门挂载链接。文章采用:“文字 + 配图 + 视频”的方式来进行展现,均是挤时间所作,希望看到这里能留下评论点个赞,略表支持!

扫描下方二维码,加入官方粉丝微信群,可以与我直接交流,还有更多福利哦~

以上是关于东大毕业生与大数据架构师的对决(结尾附视频)的主要内容,如果未能解决你的问题,请参考以下文章

腾讯位置 - 地点搜索(结尾附视频)

腾讯位置 - 地图构建入门(结尾附视频)

前端leader找我谈心:我是如何从刚毕业的前端菜鸟一步步成长为前端架构师的?

Tomcat设置开机启动 - CentOS(结尾附视频)

腾讯位置 - 地址解析(结尾附视频)

腾讯位置 - 逆地址解析(结尾附视频)