为啥近实时调用火花流?

Posted

技术标签:

【中文标题】为啥近实时调用火花流?【英文标题】:why is spark streaming called near real time?为什么近实时调用火花流? 【发布时间】:2017-10-11 04:30:34 【问题描述】:

我知道 Spark Streaming 使用微批处理来处理数据,但在某些情况下处理时间不到一秒。我的问题是“在那个场景中,它不能被称为纯实时处理而不是接近实时处理吗?”

【问题讨论】:

【参考方案1】:

我想说我们只能在收集数据并直接推送到仪表板或系统时谈论指标、警报和优化的实时性,没有任何类型的 ETL 过程,实时性的目的主要是, 速度。

只要有一个批处理过程提取历史趋势或基准测试,尽管它需要不到一秒的时间,那么它不是实时的,而是接近实时的,那是因为他们谈论的是接近实时的。

所以,要回答您的问题,我会说不,它接近实时,因为您正在批处理和处理。

希望对你有帮助。

胡安

【讨论】:

我刚刚问过我们的大数据专家(他在我的右边工作),他说在大数据中 Spark Streaming 被认为是接近实时的,因为他的精度接近毫秒并且使用框架像 Storm 或新的 Spark(结构化流)一样,您可以在纳秒级精度上工作,这就是大数据中的纯粹主义者所说的实时。【参考方案2】:

Spark Streaming 将数据流分成 X 秒的批次,称为 Dstream,在内部是一个 RDD 序列,每个批次间隔一个。每个 RDD 都包含在批处理间隔期间收到的记录。因为它的小批量处理称为近实时而不是实时。

【讨论】:

以上是关于为啥近实时调用火花流?的主要内容,如果未能解决你的问题,请参考以下文章

使用HLS协议连接nginx实现近实时流方式播放视频

Spark Streaming 实时处理

基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

如何在火花流中刷新加载的数据帧内容?