面试20220803
Posted 宝哥大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了面试20220803相关的知识,希望对你有一定的参考价值。
今天面试有些懵逼。。。
1、Flink中的Checkpoint和Spark中的Checkpoint区别
Flink 中的 Checkpoint 主要作用是:容错机制
区别主要有2点:
-
1、flink更轻量,可以根据时间戳更新state,
-
因为在Flink中Checkpoint是持久化 全局的状态 state (keyed state 或 Operator state)的快照,在Flink中增量的快照,效率比较高。
-
对比 Spark : 重量级的快照,Spark每次全量的快照,Flink 每次增量的快照
- spark是每个批次全量保存
-
-
2、在 Flink 中的 Checkpoint 中又仅一次语义概念和用法,而 spark checkpoint 没有仅一次的概念
-
3、其次 flink 的 checkpoint 有三个状态后端,memery、rocksdb、hdfs,所谓的状态后端就是 checkpoint 的存储位置,在Spark 中 checkpoint 的存储位置一般保存在HDFS,也可以保存至本地磁盘
- 但是一般情况下,checkpoint在Flink和Spark中保存的位置没太大区别,基本相同,因为生产情况下一般存HDFS
2、flink slot与并行度关系
其中的关系如下:假设集群中有一台master,k台slave节点。
flink-conf.yaml 中有两个重要的参数:
taskmanager.numberOfTaskSlots,The number of task slots that each TaskManager offers. Each slot runs one parallel pipeline.
parallelism.default,The parallelism used for programs that did not specify and other parallelism.
前者指定了每个taskmanager提供的slot个数,后者的指定的程序默认的并行度。两者之间的关系为:
parallelism.default<=k(theNumberOftaskmanager)∗taskmanager.numberOfTaskSlots
否则程序运行时候将不会得到足够多的slot而报错。
总之就是,slot提供资源,越多越好,并行度不能超过slot总上限。
详细见 https://www.modb.pro/db/172287
3、用户画像
架构 es+hbase es+clickhouse
4、hive锁表如何解决
解决参考: https://blog.csdn.net/weixin_40983094/article/details/124212694
doris的原理及优缺点
以上是关于面试20220803的主要内容,如果未能解决你的问题,请参考以下文章