Hive面经

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive面经相关的知识,希望对你有一定的参考价值。

参考技术A 创建表时,内部表会将数据移到仓库指定路径,创建外部表时,仅记录数据所在路径,不对数据所在位置做任何改变

删除表时,内部表会将数据与元数据一起删除,外部表则只删除元数据。外部表相对安全,方便共享

当Hive自带的函数不能满足需要时,可以自定义函数,自定义函数分为三类:

UDF数据一进一出,UDAF数据多进一出,UDTF数据一进多出,常见列拆分

场景:MR中,shuffle阶段的一个key值对应了很多值,那这些值会进入一个分区中,两个表做join maptask中一个任务处理的时间明显大于其他的task的时间,于是出现了数据倾斜

开启数据倾斜时的负载均衡

set hive.groupby.skewindata=true;

思想:先随机分发,再按照key group by来分发处理。按照上面的设定,查询计划会有两个MRJob。第一个MRJob中map阶段随机分发,reduce阶段做部分聚合,这样的话相同的GroupBy Key有可能分配到不同的机子上,从而达到负载均衡的目的。第二个MRJob在第一个MRJob已经做了预聚合的基础上在完成一次聚合,这时,数据不均衡已经得到了很大的改善,基本解决了数据倾斜的问题

小文件带来的问题:对于HDFS来说制约了其存储的数据量,对于MR程序来说,严重影响了计算性能,。一个好的解决办法是使用CombinedInputFile和JVM重用

Hive小文件产生的原因:Hive查询后的数据量通常比源数据小得多。通常为了提升运算速度,我们会增加Reducer的数量,Reducer数量等于源数据的量除以hive.exec.reducers.bytes.per.reducer所配置的量(默认1G),当然这依然有可能造成大量的小文件。

解决小文件主要从这两个方向入手:输入合并[Map前合并小文件],输出合并[输出结果的时候合并小文件]

配置Map输入合并

配置Hive结果合并

压缩文件的处理:对于输出结果为压缩文件形式存储的情况,要解决小文件问题,如果在Map输入前合并,对输出的文件格式没有限制。如果输出合并,则必须配合SequenceFile来存储,否则无法进行合并,以下是示例:

每日面经LinkedInMicrosoft​Spectrum​最新面经速递!

【每日面经】LinkedIn、Microsoft​、Spectrum​最新面经速递!

直通硅谷每日面经整理

【每日面经】LinkedIn、Microsoft​、Spectrum​最新面经速递!

为了帮助小伙伴们更好的准备面试

直通硅谷帮助大家整理了每日最新面经

省去自己搜索面经的繁琐


重点标红 我们每天都更新哦!


整理时间


2020年3月下旬

本期内容


以下公司最新面经速递

Microsoft

Spectrum

LinkedIn



部分面经阅读


(因为整理内容过多,这里只放有部分面经,想获取完整版的小伙伴们可以阅读下文“完整版获取方式”。)


【题目类】

Microsoft/Onsite/Fail/实习

第一轮:开始一半是bq,然后问了几个ml的基本问题,不太难

第二轮:case 分析,我觉得我可能是挂在这里了,因为还是不太懂ab testing然后也没有专门练过这种case的答题

第三轮:coding, 应该是leetcode上的题,但我没做过2333,不过不难,介于easy和medium之间的难度吧

第四轮:概率和statistic的几个问题,掷骰子求期望啥的,看了面经,都秒了

 

来源:

https://www.1point3acres.com/bbs/forum.php?mod=viewthread&tid=597174&extra=page%3D1%26filter%3Dsortid%26sortid%3D311%26searchoption%5B3088%5D%5Bvalue%5D%3D7%26searchoption%5B3088%5D%5Btype%5D%3Dradio%26sortid%3D311%26orderby%3Ddateline

 

Spectrum/技术电面/实习

72 Hours to Complete after login.

Four Questions : (准备时间不限,有两次record的机会)

1. Introduction

2. Why you interested in this internshipprogram?

3. Your skills relevantt to this position

4. Your past experience (projects/organization/club/volunteer...)

 

来源:

https://www.1point3acres.com/bbs/forum.php?mod=viewthread&tid=597135&extra=page%3D1%26filter%3Dsortid%26sortid%3D311%26searchoption%5B3088%5D%5Bvalue%5D%3D7%26searchoption%5B3088%5D%5Btype%5D%3Dradio%26sortid%3D311%26orderby%3Ddateline


【综合类】 

LinkedIn/OA/Fail/实习

linkedin 2020暑期实习一轮,二轮面经总结(分享攒人品!)第一次写面经帖子,自己收到了技术面的拒信,希望能多多少少帮助到需要找实习的各位同仁,大家一起努力!也希望得到更多的建议!

 

楼主背景

非名校在读统计PhD,无工作经验,第一年申请实习试水~

一轮HR

11月初投了领英家的DS岗的暑期实习,1月中旬收到了HR面试邀请,我想应该是在waitlist上呆了很久之后才被侥幸选上的。但无论如何很开心能有这个机会!前期没有什么特别准备。HR面主要是HR介绍公司相关项目,以及对申请人简历进行详细询问,另外他家的HR面最后会附加一道SQL的题目考察。

因为我之前在面其他公司的时候有详细准备过HR面,所以这一次没有特别花时间。HR面的重点有以下几个方面:

一定要对自己的简历很熟悉,准备两个左右你能详细展开说的项目或课题,展开说的意思是有具体重点,为不是泛泛而谈,比如在进行课题时技术上遇到了什么困难,你如何自己解决,用了什么具体的方法。

明确你所申请公司以及其岗位需要什么技术,结合你自己的能力以及自己的兴趣,表达出你适合这个岗位并且喜欢这个公司。因为很多时候,HR会问为什么选择这个岗位和这个公司。

对于自己的技术领域要比较客观的评价,比如R/SQL/Python 的掌握程度,不需要每一项都说很厉害(如果你并没有很厉害),可以说的比较客观,因为这牵扯到HR会给出什么难度的题目,我觉得在HR面部分做出题目比较重要。

楼主当时在和HR沟通之后就得到了moveforward的反馈,所以当天下午直接预约了二轮面试的时间,当然我觉得这么快的move forward也是因为已经到面试后期了,速度比较快。

 

二轮技术面

技术面我约的是一周以后,之前看的面经帖里有人分享,技术面分为一轮——算法(sql), 二轮——case study,不同时间,但我安排的一共90分钟,两轮一起,不同面试官。

SQL面

 

sql 面的是一道之前地里发过的题,推荐这个帖子:https://www.1point3acres.com/bbs/thread-529697-1-1.html

[hide=177] 我sql面的就是Q2,第一题就是用的join, 第二题是windowfunction,上面帖子都有solution, 这里就不重复了。用的是mySQL写的,刚开始比较紧张,回答的比较慢,第二问就还好, 只问了这一道题,问的比较细,会问为什么这么写,以及所用function的细节

(反馈意见,sql还可以,就是回答可以再利索一点,,确实,我面试的时候还是比较紧张的,毕竟自己还是一个萌新)

另外楼主之前收到的面试准备里面也写了会考algorithm/datamanipulation, 但我觉得DS岗基本就是考SQL的题目,目前结合自己的经历和看过的面经,基本没有考纯算法的,一般就是SQL和用python/R转换,如果拿DS的面试,着重准备这两方面。

Case Study/Probability 面

楼主case study面表现很不好,原因在于没有任何case study的经验,也没有很多时间去准备,只能说自己对整个case study的流程框架都不是很熟悉,再加上心理比较紧张,所以整个面试表现很一般。

 

楼主被问的case study其实是一个很经典的场景:

[hide=177] The first week of Jan, thenumber of job applications suddenly drop 10%, please analyze.

[hide=177] 之前看过一个帖子,有提供一些思路,https://www.1point3acres.com/bbs ... science-330947.html, 这是那个总结了case study的大神贴,当时我按照这个帖的逻辑,没有直接[hide=177] 作答,而是先问了一些问题,我问了“if there is any special event happened?" 面试官让我举了例子,我就是举了"n-Cov"的例子,然后面试官就问了”how do youconfirm?" 当时,楼主就懵了, 这和

[hide=177] 我想象的不太一样感觉,然后我就想了好一会,回答了我们可以将#of job applications按地区分开统计,因为主要病例集中在中国地区,如果这一部分的#job applications有了明显的降低,就说明这个

[hide=177] 这个事件确实造成了影响,然后可以更深度的进行研究。之后又问了还有什么可以考虑的,楼主就考虑了“if our data collect wrong?",面试官问了”whichmistakes could happen?" 楼主又懵了。。

[hide=177] 真的就是被问懵了,不太会回答,所以就尴尬了很久。。。之后就跳过了这部分,问了几个probability的问题。Probability方面,没有问概念,而问了分布相关的,比如"the distribution of the heights in [hide=177] Americanmales". 总而言之,我的case study方面就是很差,因为确实当时比较震惊,完全没有办法好好思考,面试之后其实觉得自己还是准备太少,一开始分析方向有一点偏差,应该自己仔细思考,

[hide=177] 而不是生搬硬套“套路"。

 

来源:

https://www.1point3acres.com/bbs/forum.php?mod=viewthread&tid=597401&extra=page%3D1%26filter%3Dsortid%26sortid%3D311%26searchoption%5B3088%5D%5Bvalue%5D%3D7%26searchoption%5B3088%5D%5Btype%5D%3Dradio%26sortid%3D311%26orderby%3Ddateline


完整版领取方式




领取方法:

扫码添加小助手,回复“面经+公司名”

得到最新面经汇总!


【每日面经】LinkedIn、Microsoft​、Spectrum​最新面经速递!

【每日面经】LinkedIn、Microsoft​、Spectrum​最新面经速递!

每天不断更!不止这些哦~


【每日面经】LinkedIn、Microsoft​、Spectrum​最新面经速递!

最新面经看了,可答案不确定又该怎么办?

求职准备苦,找直通硅谷

Offer又被撸,找直通硅谷


直通硅谷成立4年多以来,已累计帮助2500+学员拿到心仪offer!



【每日面经】LinkedIn、Microsoft​、Spectrum​最新面经速递!

依托硅谷顶尖科技公司资深工程师教师资源,针对华人学生面试短板,打造精悍高效、高技术含量且紧贴面试趋势的求职辅导课程,帮助学员提高硬核能力、熟知面试技巧,拓展职场人脉,从而进入硅谷顶尖科技公司。


专业团队,经验打造,助你全面提升求职准备效率,短时间内 迅速提升面试能力!


课程详细介绍请点击↙左下角原文链接~


 求职文书资料:25万字四年积累资料库,包含求职文书模板、面经资料、BQ资料等,让同学在求职的前、中、后期大大节省资料搜集时间。 

【每日面经】LinkedIn、Microsoft​、Spectrum​最新面经速递!

以上是关于Hive面经的主要内容,如果未能解决你的问题,请参考以下文章

迟到的Java岗面经面7家,意外收获5家意向offer,越努力越幸运!

网络安全Web安全渗透测试之笔经面经总结

面经:面经笔记 2017.8 Part1

闻泰科技大数据开发面经

面经联想大数据开发面经

非计算机专业自学1年拿到算法offer的总结(附学习路线)