大数据流式计算技术解析之一

Posted 架构之美

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据流式计算技术解析之一相关的知识,希望对你有一定的参考价值。

最近看了一下开源大数据产品Spark的流式计算框架,以前做数字电视码流处理的一些技术对于理解流式计算非常有帮助,数字电视的节目码流处理才是最原装的流式计算,Transport Stream,简称TS流。TS流处理的过程就是把每个188个字节的TS包完整地送到解码器上(比如机顶盒),里面几个关键点:1)包结构定义;2)数据封装;3)数据传输;4)解码,简要地看看这几个过程。

摘一段TS流的定义,TS流的包结构在ISO/IEC 13818-1的2.4章节有详细的描述。

TS包由包头和包数据2部分组成,其中包头还可以包括扩展的自适用区。包头长度占4bytes,自使用区和包数据共占184bytes,整个TS包长度相当于4ATM包长。TS包的包头由如下图摘录所示的同步字节、传输误码指示符、有效载荷单元起始指示符、传输优先、包识别(PID-Packet Identification)、传输加扰控制、自适应区控制和连续计数器8个部分组成。

TS格式定义:

大数据流式计算技术解析之一

TS流打好包后,经过节目复用(加一些表格进来,用于解码)和传输复用(多路复用),经过同轴电缆送到接收端,比如家里的数字电视机顶盒,经过解复用、解码的过程,如果是加密节目,还有解扰的过程,电视就可以播放出来了。

对比一下Sparks Streaming的处理流程,无论从数据包的处理还是实时性方面(数字电视的节目流很好理解,实时解码),何其相似,TS处理的实时性要求更高一些。以后抽时间写一下TS的打包、加扰、复用,解复用、解扰、解码的过程。


以上是关于大数据流式计算技术解析之一的主要内容,如果未能解决你的问题,请参考以下文章

《大数据》2015年第3期“研究”——大数据流式计算:应用特征和技术挑战

系统部署 | 大数据流式计算的应用特征和技术挑战

《分布式技术原理与算法解析》学习笔记Day14

大数据技术流式计算与Storm

淘宝大数据之流式计算

大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank(