面试20220803

Posted 宝哥大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了面试20220803相关的知识,希望对你有一定的参考价值。

今天面试有些懵逼。。。

1、Flink中的Checkpoint和Spark中的Checkpoint区别

Flink 中的 Checkpoint 主要作用是:容错机制

区别主要有2点:

  • 1、flink更轻量,可以根据时间戳更新state,

    • 因为在Flink中Checkpoint是持久化 全局的状态 state (keyed state 或 Operator state)的快照,在Flink中增量的快照,效率比较高。

    • 对比 Spark : 重量级的快照,Spark每次全量的快照,Flink 每次增量的快照

      • spark是每个批次全量保存
  • 2、在 Flink 中的 Checkpoint 中又仅一次语义概念和用法,而 spark checkpoint 没有仅一次的概念

  • 3、其次 flink 的 checkpoint 有三个状态后端,memery、rocksdb、hdfs,所谓的状态后端就是 checkpoint 的存储位置,在Spark 中 checkpoint 的存储位置一般保存在HDFS,也可以保存至本地磁盘

    • 但是一般情况下,checkpoint在Flink和Spark中保存的位置没太大区别,基本相同,因为生产情况下一般存HDFS

2、flink slot与并行度关系

其中的关系如下:假设集群中有一台master,k台slave节点。
flink-conf.yaml 中有两个重要的参数:

taskmanager.numberOfTaskSlots,The number of task slots that each TaskManager offers. Each slot runs one parallel pipeline.

parallelism.default,The parallelism used for programs that did not specify and other parallelism.

前者指定了每个taskmanager提供的slot个数,后者的指定的程序默认的并行度。两者之间的关系为:

parallelism.default<=k(theNumberOftaskmanager)∗taskmanager.numberOfTaskSlots

否则程序运行时候将不会得到足够多的slot而报错。

总之就是,slot提供资源,越多越好,并行度不能超过slot总上限。

详细见 https://www.modb.pro/db/172287

3、用户画像

架构 es+hbase es+clickhouse

4、hive锁表如何解决

解决参考: https://blog.csdn.net/weixin_40983094/article/details/124212694

doris的原理及优缺点

以上是关于面试20220803的主要内容,如果未能解决你的问题,请参考以下文章

面试官问:MySQL的自增 ID 用完了,怎么办?

关于http get和form表单post提交数据大小限制

学历对于程序员来说重要么?影响到底有多大?学历就决定了你的上限?老程序员来告诉你:不重但要!!!

java面试基础题整理学习

Redis面试题

zookeeper面试整理