对于一般大数据物流项目的面试题(问题+答案)

Posted 大数据Manor

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对于一般大数据物流项目的面试题(问题+答案)相关的知识,希望对你有一定的参考价值。

1、数据采集如何完成
OGG 不要涉及,Oracle DBA完成
Canal数据采集,一定知道高可用HA集群模式
2、数据量大小
Kafka topic 数据存储生命周期(多久)
7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数
分区数并不是越多越好,一般分区数不要超过集群机器数量。分区数越多占用内存越大(ISR 等),一个节点集中的分区也就越多,当它宕机的时候,对系统的影响也就越大。
分区数一般设置为:3-10 个

副本数设定
一般我们设置成 2 个或 3 个,很多企业设置为 2 个。

多少个 Topic
通常情况:多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置
Kafka 机器数量=2*(峰值生产速度*副本数/100)+1

3、实时增量ETL程序开发,为什么选择使用StructuredStreaming??
重点知识点

4、消费Kafka数据几种方式及区别,如何保存偏移量?
SparkStreaming Checkpoint或自己管理
StructuredStreaming 使用Checkpoint管理

5、为什么使用Kudu存储,不使用HBase??
数据库【数据上的快速分析】
当数据量级起来以后,会发现数据库吃不消了或者成本开销太大了,此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来,装入一个分析型的数据库(OLAP࿰

以上是关于对于一般大数据物流项目的面试题(问题+答案)的主要内容,如果未能解决你的问题,请参考以下文章

java运行时异常与一般异常,含面试题+答案

数据仓库面试题

iOS开发,重点iOS技术点+面试题整理

字节跳动大数据开发面试题-附答案

字节跳动大数据开发面试题-附答案

字节跳动大数据开发面试题-附答案