面试:Spark是什么?请简单说一下

Posted Java仓库

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了面试:Spark是什么?请简单说一下相关的知识,希望对你有一定的参考价值。


【给大家分享Java面试中经常会被提问的问题哦,每天晚上9点30准时分享
01
Spark是什么?请简单说一下    

      Spark 提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。

核心架构

1、Spark Core

        包含 Spark 的基本功能;尤其是定义 RDD 的 API、操作以及这两者上的动作。其他 Spark 的库都是构建在 RDD 和 Spark Core 之上的

2、Spark SQL

        提供通过Apache Hive 的 SQL 变体 Hive 查询语言(HiveQL)与 Spark 进行交互的API。每个数据库表被当做一个RDD,Spark SQL 查询被转换为 Spark 操作。

3、Spark Streaming

        对实时数据流进行处理和控制。Spark Streaming 允许程序能够像普通 RDD 一样处理实时数据

4、Mllib

        一个常用机器学习算法库,算法被实现为对 RDD 的 Spark 操作。这个库包含可扩展的学习算法, 比如分类、回归等需要对大量数据集进行迭代的操作。

5、GraphX

        控制图、并行图操作和计算的一组算法和工具的集合。GraphX 扩展了 RDD API,包含控制图、创建子图、访问路径上所有顶点的操作

--------------------------

java仓库介绍:每天提供最实用的java工具,定期分享项目源码。我们的宗旨是:复制粘贴就能用,减少开发时间,让我们java程序员有更多的时间划水摸鱼,多一些时间做自己想做的事情
Java仓库
一个拿来就能用的公众号
微信扫描二维码,关注我的公众号

以上是关于面试:Spark是什么?请简单说一下的主要内容,如果未能解决你的问题,请参考以下文章

java面试⑥框架部分

面试:简单说一下你对Ajax的认识

华为面试官:说一下RPC调用和HTTP调用的区别?

java面试⑤前端部分

阿里终面面试官:请直观讲解一下 RPC 调用和 HTTP 调用的区别

阿里面试 深度学习