大数据选择题牛刀小练1
Posted 闭关苦炼内功
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据选择题牛刀小练1相关的知识,希望对你有一定的参考价值。
大数据选择题牛刀小练1
1、Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是?128M
Hadoop2.x版本以后。 默认的数据块大小就变成了128M
2、Spark Job 默认的调度模式 FIFO
3、下面关于hdfs中SecondaryNameNode描述正确的一项是()
它的目的是帮助NameNode合并editlog,减少NameNode 启动时间
SecondaryNameNode它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。帮助namenode合并editlog,减少namenode启动时间
4、下面哪个不是 RDD 的特点 可修改
RDD不可修改
RDD可分区、可序列化、可持久化
5、已知表t
est(name)的记录如下,
tom
tom_green
tomly
lily
代码select * from test where name rlike 'tom.*'的结果有几条记录 3
rlike和like差不多,但它支持正则,.*表示匹配n个字符
6、在hive中一个查询语句执行后显示的结果为:
20180812 50;20180813 32;20180814 NULL,则最有可能的查询语句是()
SELECT inc_day, count(task_no) FROM 任务表
WHERE inc_day<=20180814 GROUP BY inc_day
having子句与where都是设定条件筛选的语句,有相似之处也有区别:
1.having是在分组后对数据进行过滤
where是在分组前对数据进行过滤
2.having后面可以使用聚合函数
where后面不可以使用聚合
3.在查询过程中执行顺序:from>where>group(含聚合)>having>order>select。
聚合语句(sum,min,max,avg,count)要比having子句优先执行,所以having后面可以使用聚合函数。而where子句在查询过程中执行优先级别优先于聚合语句(sum,min,max,avg,count),所有where条件中不能使用聚合函数。
select sum(num) as rmb from order where id>10;
//先查询出id大于10的数据,再执行聚合语句sum(num)
//执行以下语句会报错,因为where子句先于sum(num)执行,执行where子句的时候还没有sum(num),所以会报错。
select sum(num) as rmb from order where sum(num)>10;
对分组数据再次判断时要用having
select reports,count() from employees group by reports having count() > 4;
//首先查询了select reports,count() from employees group by reports,在此基础上查找count() > 4的数据。
聚合函数:
例如SUM, COUNT, MAX, AVG等,这些函数和其它函数的根本区别就是它们一般作用在多条记录上。
总结:
HAVING子句可以让我们直接筛选成组后的各组数据,也可以在聚合后对组记录进行筛选,而WHERE子句在聚合前先筛选记录,也就是说作用在GROUP BY 子句和HAVING子句前。
7、Spark 支持的分布式部署方式中哪个是错误的
Spark on local
local用于本地模式运行,不是分布式,在单一机器上运行
8、关于累加器,下面哪个是错误的
不支持自定义类型
关于累加器,正确的说法是
支持加法
支持数值类型
可并行
9、代码select bin(17)与下面结果一致:
select conv(17,10,2)
bin转二进制。conf(a,b,c)把a值从b进制转化为c进制。
bin(17):将17转化为2进制 conv(17,10,2):将17从10进制转化为2进制.
即conv(要转换的值,被转换的进制数,要转换成的进制数)
10、下列不属于Spark中driver的作用的是( )
负责运行组成 Spark 应用的任务
属于Spark中driver的作用
执行main方法
把用户程序转化为task
协调任务的调度
11、现在在hadoop集群当中的配置文件中有这么两个配置,请问假如集群当中有一个节点宕机,主节点namenode需要多长时间才能感知到?
dfs.heartbeat.interval
3
heartbeat.recheck.interval
2000
34秒
dfs.heartbeat.interval10 + heartbeat.recheck.interval2
heartbeat.recheck.interval是毫秒级别的先除以1000
dfs.heartbeat.interval意思是:datanode会按照此间隙(单位是s)向namenode发送心跳,默认发送10次。
heartbeat.recheck.interval意思是:namenode按照此间隙(单位是ms)检查datanode的相关进程,默认检查2次
12、以下有关神经网络的说法错误的是( )
MP模型在隐藏层和输出层都对神经元进行激活函数处理
神经网络正确的说法
使用多层功能神经元可以解决非线性可分问题
神经网络“学”到的东西,蕴含在连接权值和阈值中
BP算法基于梯度下降策略
13、已知表emp存在字段name1,以下语句能够正常运行的是哪一个:
alter table emp rename to emp1
14、sc.parallelize([(1,2),(1,3),(2,3),(2,4),(3,1)].reduceByKey(lambda x,y : x +y).count().collect”操作中会产生( )个stage
2
首先获取list里面的每个元素,不管有没有map都算开始第一个阶段,stage1
接着reducebykey 肯定shuffle 了。 因此就有一个 stage2 了
而后面的count 计算 是可以并行处理的,也就是 每个key的总数互相之间计算并没有依赖,因此不会产生新的 stage 。
15、Hive支持的数据类型
-原始数据类型
#整型
TINYINT — 微整型,只占用1个字节,只能存储0-255的整数。
SMALLINT– 小整型,占用2个字节,存储范围–32768 到 32767。
INT– 整型,占用4个字节,存储范围-2147483648到2147483647。
BIGINT– 长整型,占用8个字节,存储范围-263到263-1。
#布尔型
BOOLEAN — TRUE/FALSE
#浮点型
FLOAT– 单精度浮点数。
DOUBLE– 双精度浮点数。
#字符串型
STRING– 不设定长度。
-复合数据类型
STRUCT:一组由任意数据类型组成的结构。
比如,定义一个字段C的类型为STRUCT {a INT; b STRING},则可以使用a和C.b来获取其中的元素值;
Maps:和Java中的Map相同,即存储K-V键值对的;
Arrays:数组;
16、Zookeeper在 config 命名空间下,每个znode最多能存储()数据?
1M
17、关于Hadoop技术描述错误的是?()
HDFS适合存储大量的小文件
18、以下哪个操作可能会产生大量小文件
从海量数据中过滤出符合条件的少量数据
19、下面列出特征选择算法中,不属于启发式搜索的有()
分支限界搜索
20、在当下比较流行的分布式数据处理平台 Spark 中,有一些常用的高阶算子,比如说 flatMap, filter, groupByKey等等;它们中的某些算子会触发shuffle操作,所谓shuffle,粗略的可以理解为要处理的数据集的内部分区需要进行重排,而不是原地计算。下面哪个算子会引起shuffle? ()
sortByKey join
spark中会导致shuffle操作的有以下几种算子
1、repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等
2、byKey类的操作:比如reduceByKey、groupByKey、sortByKey等
3、join类的操作:比如join、cogroup等
21、在hive中下列哪些命令可以实现去重()
distinct
group by
row_number
row_number是排完序后再取topN,相同于去重
22、以下各项均是针对数据仓库的不同说法,你认为正确的有( )
数据仓库是一切商业智能系统的基础
数据仓库支持决策而非事务处理
23、关于ELM神经网络的描述,下列选项中正确的是( )
是一种泛化的单隐层前馈神经网络
输入层和隐含层之间的权重和隐含层节点的阈值是通过随机初始化得到的
24、zookeeper 有很多版本,(apache ) 版本是原始版本,( cdh) 版本是对原始版本的增强。
25、Hadoop五个守护进程:
namenode datanode secondarynamenode resourcemanager nodemanager
提交了mapreduce任务才会有mrappmaster/yarnchild进程
26、代码select bin(17)的结果是下面哪一个:10001
Hive 二进制函数 : bin
语法: bin(BIGINT a)
返回值: string
说明: 返回 a 的二进制代码表示
以上是关于大数据选择题牛刀小练1的主要内容,如果未能解决你的问题,请参考以下文章
[前端学习]从0到1做一个Vue风格的Todolist(Vue牛刀小试)