第一阶段总结

Posted 2022-01-28 xuziyu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第一阶段总结相关的知识，希望对你有一定的参考价值。

1.画出你们的大数据架构，然后针对架构提问，如何做到精准一次、小文件规避等
2.为什么会产生小文件
3.为什么Hadoop不怕数据量大，却怕文件小
4.你能告诉我路径占不占元数据内存，如果占，占多少
5.小文件会产生什么样的问题，产生的问题会对你们的集群产生什么样的影响
6.画出Yarn工程流程
7.mr和spark，flink，storm在yarn上的执行流程
8.Yarn调度有哪几种？你们用的是那种？
然后给一个案例如果申请的资源，在yarn队列里资源不够，怎么处理
9.如何用自己的spark版本去替换cm的spark版本
cm里边自带的spark是standlone模式
10.你们HDFS高可用采用的那种？NN落盘的两个文件叫什么？主备NN实现高可用的流程？
11.HDFS NN内存管理
12.现场看生产上一个案例：HDFS Block有丢失，怎么办？
13.查看HDFS上一个目录下文件数和空间大小的命令
14.scala中Left和Right的区别
15.Java多线程用到的锁有哪些？

16.说几个对hadoop的认识
1.广义和狭义
2.hdfs的架构，他们每个东西的职责
3.HA里边的职责
4.yarn职责，yarn的HA分别是怎么是实现的
5.小文件及小文件产生的原因还有怎么处理
17.hadoop1.x到2.x有什么区别
1里都是单点故障
18.我们hadoop生产用什么文件格式和压缩？为什么
19.如何保证yarn的高可用，yarn在挂掉后，未执行完的作业怎么处理
20.小文件合并的方案
归档
21.简单说下hdfs读文件和写文件的流程
22.每天数据量有多大？生产集群规模有多大？
2 3条数据线，一天200G到300G
多少数据量对应多少台机器挂载磁盘
23.阐述一下最近开发的项目，以及担任的角色位置
24.我们项目中数据倾斜的场景和解决方案
25.hive执行哪些操作时会触发MR，哪些操作不能触发MR？
参数可以控制 batch
26.hive触发MR转换过程？
27.生产中数据量？
时间业务线
28.查询一个文件有多少行。
29.jvm 运行时数据区域
30.mr 计算流程
31.git的使用
32.hive内部表和外部表的区别
33.hive存储格式和压缩格式
34.hive于关系型数据库的区别
半毛钱的关系没有只是语法长的有点像而已
35.各种排序手写堆排序,说说原理
36.阐述HDFS生成文件的过程（写过程）
37.Hadoop有哪些优化，调优点
MR调优：map端缓冲区能放大，能减少磁盘落地交互次数，reduce也有缓冲区，小文件
38.阐述对Hive分区的理解
分区是目录
39.Hive分桶
分桶是文件
40.公司的生产集群规模
10字节*天数*副本数=xxx
xxx*N个业务线=。。。
N台
41.hive和hdfs之间的联系
42.inode和文件描述符
43.linux指令如何创建文件
44.hive实现原理
45.谈谈你对HDFS的了解（架构）
46.Hadoop2.0做了哪些改动
47.StringBuilder与StringBuffer的区别
48.HashMap与Hashtable的区别
49.你刚刚项目提到了元数据，你能说说hive的元数据管理嘛，对它了解嘛
50.还是hive，你对hive有哪些原理性了解呢
51.知道AST、operator tree这些长什么样吗
52.那你的hive转mr过程是怎么了解的呢？
53.除了谓词下推，还能说说其它的优化嘛？别说数据倾斜的调优
54.你觉得join该怎么优化（大表对大表优化加桶）FMB JOIN
55.hadoop集群、namenode如何做到数据同步？
56.hdfs副本存放策略
57.HA如何在挂掉一台namenode节点的状态下，自动切换到另一台？
58.mapreduce shuffle过程
59.mapreduce优化
60.hive能加索引吗？
61.如何查找在Linux目录下的某个文本里的包含相关内容的操作?
grep
62.小文件的合并
归档
后期spark
63.关注哪些名人的博客
过往记忆五个
64.对大数据领域有什么自己的见解
65.你对未来的规划是什么？(五年内)
66.你也就是走技术路线咯
67.谈谈你对树的理解
68.jvm的内存模型
69.1TB文件，取重复的词，top5指定的资源的场景下，如何快速统计出来
70.Java字符串拼接StringBuffer和+=区别
71.Scala map和foreach区别

72.join和group by数据倾斜的解决方案

使用Hive/MR/Spark进行离线处理时的注意事项
1）input
格式问题
2）temp
速度快
3）
格式问题

ETL 大宽表
==>TEMP12 合理利用中间结果集
==>SQL1
==>SQL2
...
SQLN
语法层面
set xxx=yyy
reduce个数设置==>输出文件个数
==>少：慢
权衡

https://www.cnblogs.com/Dhouse/p/7132476.html hivesql转为mr

以上是关于第一阶段总结的主要内容，如果未能解决你的问题，请参考以下文章