大数据选择题牛刀小练4

Posted 闭关苦炼内功

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据选择题牛刀小练4相关的知识,希望对你有一定的参考价值。

大数据选择题牛刀小练4


1、关于HDFS安全模式说法正确的是?()
在安全模式下只能读不能写

2、已知数组trans_cnt[1,2,3,4],以下哪一个表达式是求数组的元素数量:
size(trans_cnt)

Hive官网描述,size(Array) returns the number of elements in the array type.

length() 获取字符串长度
size() 获取泛型集合元素个数

3、Spark的四大组件
SQL and DataFrames
Spark Streaming
MLlib (machine learning)
GraphX (graph)

4、关于K均值和DBSCAN的比较,以下说法正确的是()
K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念
K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

聚类分为:基于划分、层次、密度、图形和模型五大类;
均值聚类k-means是基于划分的聚类, DBSCAN是基于密度的聚类。区别为:

k-means需要指定聚类簇数k,并且且初始聚类中心对聚类影响很大。k-means把任何点都归到了某一个类,对异常点比较敏感。DBSCAN能剔除噪声,需要指定邻域距离阈值eps和样本个数阈值MinPts,可以自动确定簇个数。

K均值和DBSCAN都是将每个对象指派到单个簇的划分聚类算法,但是K均值一般聚类所有对象,而DBSCAN丢弃被它识别为噪声的对象。

K均值很难处理非球形的簇和不同大小的簇。DBSCAN可以处理不同大小或形状的簇,并且不太受噪声和离群点的影响。当簇具有很不相同的密度时,两种算法的性能都很差。

K均值只能用于具有明确定义的质心(比如均值或中位数)的数据。DBSCAN要求密度定义(基于传统的欧几里得密度概念)对于数据是有意义的。

K均值算法的时间复杂度是O(m),而DBSCAN的时间复杂度是O(m^2)。
DBSCAN多次运行产生相同的结果,而K均值通常使用随机初始化质心,不会产生相同的结果。

K均值和DBSCAN都寻找使用所有属性的簇,即它们都不寻找可能只涉及某个属性子集的簇。

K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。

K均值可以用于稀疏的高维数据,如文档数据。DBSCAN通常在这类数据上的性能很差,因为对于高维数据,传统的欧几里得密度定义不能很好处理它们。

5、四种类型的数据节点 Znode
PERSISTENT-持久节点
EPHEMERAL-临时节点
PERSISTENT_SEQUENTIAL-持久顺序节点
EPHEMERAL_SEQUENTIAL-临时顺序节点

1)、PERSISTENT-持久节点

除非手动删除,否则节点一直存在于 Zookeeper 上

2)、EPHEMERAL-临时节点

临时节点的生命周期与客户端会话绑定,一旦客户端会话失效(客户端与

zookeeper 连接断开不一定会话失效),那么这个客户端创建的所有临时节点都

会被移除。

3)、PERSISTENT_SEQUENTIAL-持久顺序节点

基本特性同持久节点,只是增加了顺序属性,节点名后边会追加一个由父节点维

护的自增整型数字。
4)、EPHEMERAL_SEQUENTIAL-临时顺序节点

基本特性同临时节点,增加了顺序属性,节点名后边会追加一个由父节点维护的

自增整型数字。

6、下面关于使用hive的描述中不正确的是?
hive的表一共有两种类型,内部表和外部表

总体上Hive有四种表:外部表,内部表(管理表),分区表,桶表。

Hive分区分桶

hive描述正确的是
hive中的join查询只支持等值链接,不支持非等值连接
hive默认仓库路径为/user/hive/warehouse/
hive支持数据删除和修改

以上是关于大数据选择题牛刀小练4的主要内容,如果未能解决你的问题,请参考以下文章

大数据选择题牛刀小练1

大数据选择题牛刀小练2

算法题牛刀小试——Fibonacci数列

[前端学习]从0到1做一个Vue风格的Todolist(Vue牛刀小试)

[前端学习]从0到1做一个Vue风格的Todolist(Vue牛刀小试)

牛刀小试之Django二