SparkStreaming学习之一 SparkStreaming初识

Posted 2021-02-16 cac2020

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SparkStreaming学习之一 SparkStreaming初识相关的知识，希望对你有一定的参考价值。

环境
　　虚拟机：VMware 10
　　Linux版本：CentOS-6.5-x86_64
　　客户端：Xshell4
　　FTP：Xftp4
　　jdk1.8
　　scala-2.10.4(依赖jdk1.8)
　　spark-1.6

一、SparkStreaming简介
SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window 。最终，处理后的数据可以存放在文件系统，数据库等，方便实时展现。

二、SparkStreaming与Storm的区别

1、Storm是纯实时的流式处理框架（扶梯），SparkStreaming是准实时的处理框架（微批处理-电梯）。因为微批处理，SparkStreaming的吞吐量比Storm要高。
2、Storm 的事务机制要比SparkStreaming的要完善。
3、Storm支持动态资源调度。(spark1.2开始和之后也支持)
4、SparkStreaming擅长复杂的业务处理，Storm不擅长复杂的业务处理，擅长简单的汇总型计算。

整体而言速度比storm要快，目前新项目一般选择SparkStreaming多一些，具体选择还要看应用场景

参考：
Spark

以上是关于SparkStreaming学习之一 SparkStreaming初识的主要内容，如果未能解决你的问题，请参考以下文章