Hive面经
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive面经相关的知识,希望对你有一定的参考价值。
参考技术A 创建表时,内部表会将数据移到仓库指定路径,创建外部表时,仅记录数据所在路径,不对数据所在位置做任何改变删除表时,内部表会将数据与元数据一起删除,外部表则只删除元数据。外部表相对安全,方便共享
当Hive自带的函数不能满足需要时,可以自定义函数,自定义函数分为三类:
UDF数据一进一出,UDAF数据多进一出,UDTF数据一进多出,常见列拆分
场景:MR中,shuffle阶段的一个key值对应了很多值,那这些值会进入一个分区中,两个表做join maptask中一个任务处理的时间明显大于其他的task的时间,于是出现了数据倾斜
开启数据倾斜时的负载均衡
set hive.groupby.skewindata=true;
思想:先随机分发,再按照key group by来分发处理。按照上面的设定,查询计划会有两个MRJob。第一个MRJob中map阶段随机分发,reduce阶段做部分聚合,这样的话相同的GroupBy Key有可能分配到不同的机子上,从而达到负载均衡的目的。第二个MRJob在第一个MRJob已经做了预聚合的基础上在完成一次聚合,这时,数据不均衡已经得到了很大的改善,基本解决了数据倾斜的问题
小文件带来的问题:对于HDFS来说制约了其存储的数据量,对于MR程序来说,严重影响了计算性能,。一个好的解决办法是使用CombinedInputFile和JVM重用
Hive小文件产生的原因:Hive查询后的数据量通常比源数据小得多。通常为了提升运算速度,我们会增加Reducer的数量,Reducer数量等于源数据的量除以hive.exec.reducers.bytes.per.reducer所配置的量(默认1G),当然这依然有可能造成大量的小文件。
解决小文件主要从这两个方向入手:输入合并[Map前合并小文件],输出合并[输出结果的时候合并小文件]
配置Map输入合并
配置Hive结果合并
压缩文件的处理:对于输出结果为压缩文件形式存储的情况,要解决小文件问题,如果在Map输入前合并,对输出的文件格式没有限制。如果输出合并,则必须配合SequenceFile来存储,否则无法进行合并,以下是示例:
每日面经LinkedInMicrosoftSpectrum最新面经速递!
直通硅谷每日面经整理
为了帮助小伙伴们更好的准备面试
直通硅谷帮助大家整理了每日最新面经
省去自己搜索面经的繁琐
重点标红! 我们每天都更新哦!
整理时间
2020年3月下旬
本期内容
以下公司最新面经速递
Microsoft |
Spectrum |
LinkedIn |
部分面经阅读
(因为整理内容过多,这里只放有部分面经,想获取完整版的小伙伴们可以阅读下文“完整版获取方式”。)
【题目类】
Microsoft/Onsite/Fail/实习
第一轮:开始一半是bq,然后问了几个ml的基本问题,不太难
第二轮:case 分析,我觉得我可能是挂在这里了,因为还是不太懂ab testing然后也没有专门练过这种case的答题
第三轮:coding, 应该是leetcode上的题,但我没做过2333,不过不难,介于easy和medium之间的难度吧
第四轮:概率和statistic的几个问题,掷骰子求期望啥的,看了面经,都秒了
来源:
https://www.1point3acres.com/bbs/forum.php?mod=viewthread&tid=597174&extra=page%3D1%26filter%3Dsortid%26sortid%3D311%26searchoption%5B3088%5D%5Bvalue%5D%3D7%26searchoption%5B3088%5D%5Btype%5D%3Dradio%26sortid%3D311%26orderby%3Ddateline
Spectrum/技术电面/实习
72 Hours to Complete after login.
Four Questions : (准备时间不限,有两次record的机会)
1. Introduction
2. Why you interested in this internshipprogram?
3. Your skills relevantt to this position
4. Your past experience (projects/organization/club/volunteer...)
来源:
https://www.1point3acres.com/bbs/forum.php?mod=viewthread&tid=597135&extra=page%3D1%26filter%3Dsortid%26sortid%3D311%26searchoption%5B3088%5D%5Bvalue%5D%3D7%26searchoption%5B3088%5D%5Btype%5D%3Dradio%26sortid%3D311%26orderby%3Ddateline
【综合类】
LinkedIn/OA/Fail/实习
linkedin 2020暑期实习一轮,二轮面经总结(分享攒人品!)第一次写面经帖子,自己收到了技术面的拒信,希望能多多少少帮助到需要找实习的各位同仁,大家一起努力!也希望得到更多的建议!
楼主背景
非名校在读统计PhD,无工作经验,第一年申请实习试水~
一轮HR
11月初投了领英家的DS岗的暑期实习,1月中旬收到了HR面试邀请,我想应该是在waitlist上呆了很久之后才被侥幸选上的。但无论如何很开心能有这个机会!前期没有什么特别准备。HR面主要是HR介绍公司相关项目,以及对申请人简历进行详细询问,另外他家的HR面最后会附加一道SQL的题目考察。
因为我之前在面其他公司的时候有详细准备过HR面,所以这一次没有特别花时间。HR面的重点有以下几个方面:
一定要对自己的简历很熟悉,准备两个左右你能详细展开说的项目或课题,展开说的意思是有具体重点,为不是泛泛而谈,比如在进行课题时技术上遇到了什么困难,你如何自己解决,用了什么具体的方法。
明确你所申请公司以及其岗位需要什么技术,结合你自己的能力以及自己的兴趣,表达出你适合这个岗位并且喜欢这个公司。因为很多时候,HR会问为什么选择这个岗位和这个公司。
对于自己的技术领域要比较客观的评价,比如R/SQL/Python 的掌握程度,不需要每一项都说很厉害(如果你并没有很厉害),可以说的比较客观,因为这牵扯到HR会给出什么难度的题目,我觉得在HR面部分做出题目比较重要。
楼主当时在和HR沟通之后就得到了moveforward的反馈,所以当天下午直接预约了二轮面试的时间,当然我觉得这么快的move forward也是因为已经到面试后期了,速度比较快。
二轮技术面
技术面我约的是一周以后,之前看的面经帖里有人分享,技术面分为一轮——算法(sql), 二轮——case study,不同时间,但我安排的一共90分钟,两轮一起,不同面试官。
SQL面
sql 面的是一道之前地里发过的题,推荐这个帖子:https://www.1point3acres.com/bbs/thread-529697-1-1.html
[hide=177] 我sql面的就是Q2,第一题就是用的join, 第二题是windowfunction,上面帖子都有solution, 这里就不重复了。用的是mySQL写的,刚开始比较紧张,回答的比较慢,第二问就还好, 只问了这一道题,问的比较细,会问为什么这么写,以及所用function的细节
(反馈意见,sql还可以,就是回答可以再利索一点,,确实,我面试的时候还是比较紧张的,毕竟自己还是一个萌新)
另外楼主之前收到的面试准备里面也写了会考algorithm/datamanipulation, 但我觉得DS岗基本就是考SQL的题目,目前结合自己的经历和看过的面经,基本没有考纯算法的,一般就是SQL和用python/R转换,如果拿DS的面试,着重准备这两方面。
Case Study/Probability 面
楼主case study面表现很不好,原因在于没有任何case study的经验,也没有很多时间去准备,只能说自己对整个case study的流程框架都不是很熟悉,再加上心理比较紧张,所以整个面试表现很一般。
楼主被问的case study其实是一个很经典的场景:
[hide=177] The first week of Jan, thenumber of job applications suddenly drop 10%, please analyze.
[hide=177] 之前看过一个帖子,有提供一些思路,https://www.1point3acres.com/bbs ... science-330947.html, 这是那个总结了case study的大神贴,当时我按照这个帖的逻辑,没有直接[hide=177] 作答,而是先问了一些问题,我问了“if there is any special event happened?" 面试官让我举了例子,我就是举了"n-Cov"的例子,然后面试官就问了”how do youconfirm?" 当时,楼主就懵了, 这和
[hide=177] 我想象的不太一样感觉,然后我就想了好一会,回答了我们可以将#of job applications按地区分开统计,因为主要病例集中在中国地区,如果这一部分的#job applications有了明显的降低,就说明这个
[hide=177] 这个事件确实造成了影响,然后可以更深度的进行研究。之后又问了还有什么可以考虑的,楼主就考虑了“if our data collect wrong?",面试官问了”whichmistakes could happen?" 楼主又懵了。。
[hide=177] 真的就是被问懵了,不太会回答,所以就尴尬了很久。。。之后就跳过了这部分,问了几个probability的问题。Probability方面,没有问概念,而问了分布相关的,比如"the distribution of the heights in [hide=177] Americanmales". 总而言之,我的case study方面就是很差,因为确实当时比较震惊,完全没有办法好好思考,面试之后其实觉得自己还是准备太少,一开始分析方向有一点偏差,应该自己仔细思考,
[hide=177] 而不是生搬硬套“套路"。
来源:
https://www.1point3acres.com/bbs/forum.php?mod=viewthread&tid=597401&extra=page%3D1%26filter%3Dsortid%26sortid%3D311%26searchoption%5B3088%5D%5Bvalue%5D%3D7%26searchoption%5B3088%5D%5Btype%5D%3Dradio%26sortid%3D311%26orderby%3Ddateline
完整版领取方式
领取方法:
扫码添加小助手,回复“面经+公司名”
得到最新面经汇总!
每天不断更!不止这些哦~
最新面经看了,可答案不确定又该怎么办?
求职准备苦,找直通硅谷
Offer又被撸,找直通硅谷
直通硅谷成立4年多以来,已累计帮助2500+学员拿到心仪offer!
依托硅谷顶尖科技公司资深工程师教师资源,针对华人学生面试短板,打造精悍高效、高技术含量且紧贴面试趋势的求职辅导课程,帮助学员提高硬核能力、熟知面试技巧,拓展职场人脉,从而进入硅谷顶尖科技公司。
课程详细介绍请点击↙左下角原文链接~
求职文书资料:25万字四年积累资料库,包含求职文书模板、面经资料、BQ资料等,让同学在求职的前、中、后期大大节省资料搜集时间。
以上是关于Hive面经的主要内容,如果未能解决你的问题,请参考以下文章