1. Spark Streaming概述

Posted zhanghuicheng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了1. Spark Streaming概述相关的知识,希望对你有一定的参考价值。

1.1 什么是Spark Streaming

      技术图片

      Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。另外Spark Streaming也能和MLlib(机器学习)以及Graphx完美融合

      技术图片

      和Spark基于RDD的概念很相似,Spark Streaming使用离散化流(discretized stream)作为抽象表示,叫作DStream。DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些RDD所组成的序列(因此得名“离散化”)

      技术图片

1.2 为什么要学习Spark Streaming 

      1. 易用

      技术图片

      2. 容错

      技术图片

      3. 易整合到Spark体系

      技术图片

1.3 Spark与Storm的对比

Spark

Storm

技术图片 技术图片

开发语言:Scala

技术图片

开发语言:Clojure

编程模型:DStream

编程模型:Spout/Bolt

技术图片
技术图片 技术图片

      

 

以上是关于1. Spark Streaming概述的主要内容,如果未能解决你的问题,请参考以下文章

Real Time Credit Card Fraud Detection with Apache Spark and Event Streaming

Spark Streaming架构原理详解!

.Spark Streaming(上)--实时流计算Spark Streaming原理介

Spark Streaming入门

Spark Streaming

Note_Spark_Day11:Spark Streaming