数据通信技术

Posted 三千步

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据通信技术相关的知识,希望对你有一定的参考价值。

《计算机网络原理》第三章 数据通信技术

3.1 概述

3.2 数据通信理论基础

主要内容

  • 信号在通信信道上传输时的数学表示及其所受到的限制。
  • 传输介质是利用电压、电流、光信号等物理量的变化来传送二进制位流
  • 可将电压、电流等表示称为时间的单值函数f(t)
  • 这样就可以用数学的方法来描述信号的变化,并对其进行数学分析

3.2.1 傅里叶分析

  • 傅里叶证明:任何正常的周期为T的函数g(t),都可以由无限个正弦和余弦函数组成

3.2.2 周期矩形脉冲信号的频谱特性

  • 对于不同傅里叶分量的衰减不同,因此引起输出的失真
  • 通过信道的谐波次数越多,信号越逼真

3.3 数据通信系统模型

3.3.1 数据通信系统基本结构

数据在通信信道上的各种传输方式及其所采用的技术

  • 数据通信系统的基本结构
  • 数据通信系统的任务
    • 把携带信息的数据用物理信号形式通过介质(信道)传送到目的地
    • 信息和数据不能直接在介质上传输
    • 解决方法:信息(原始)->数据(存储)->信号(在介质上传输)

3.3.2 数据与信号

  • 数据表示
    • 模拟数据 连续值
    • 数字数据 离散值
  • 数据传输方式
    • 模拟信号
    • 数字信号
  • 信号发送方式
    • 模拟信号发送(模拟信道)
    • 数字信号发送(数字信道)
  • 数据同步方式
    • 同步是指接收端严格地按照发送端所发送的每个码元的重复频率以及起止时间来接收数据,也就是要在时间基准上必须取得一致。
    • 根据同步的对象不同可分为:
      • 位同步
      • 字符同步
        • 字符同步有异步制同步制两种方式
          • 异步制字符同步
          • 同步制字符同步
      • 帧同步
  • 模拟信号和数字信号的发送
    • 模拟信号发送(模拟信道)
    • 数字信号发送(数字信道)

3.3.3 信道通信方式

为适用不同需要,通信线路采用不同连接方式

  • 点-点方式
  • 多点方式

通信方式

  • 从信息传送方向和时间的关系角度研究
    • 单工通信方式
      • 特点:信息只能单向传输,监视信号可回送。
    • 半双工通信方式
      • 特点:信息可以双向传输,但是在某一时刻只能单向传输。
    • 全双工通信方式
      • 特点:信息可以同时双向传输,一般采用四线式结构。

3.3.4 数据传输方式

  • 基带传输和频带传输
    • **基带信号:**信源发出的没有经过调制的原始电信号
    • 将基带信号直接送到通信线路上的传输方式称为基带传输
      • 由模拟信号信源变换得到的信号称为模拟基带信号
      • 由计算机产生的二进制信号称为数字基带信号
    • 将基带信号经过调制后送到通信线路上的传输方式称为频带传输
  • 数字数据的基带传输
    • 基带传输:在传输时直接使用基带信号
      • 基带传输是一种最基本的传输方式,一般低电平0高电平1
      • 适用低速和高速的各种情况
      • 因基带信号占用频率很宽,对传输线有一定的要求
    • 核心内容编码方式
  • 数字数据的模拟传输(频带传输)
    • 频带传输:指在一定频率范围内的线路上,进行载波传输。用基带信号对载波进行调制,使其变为适合于线路传送的信号
    • 调制:用基带脉冲对载波信号的某些参量进行控制,使这些参量随基带脉冲变化。
    • 解调:调制的范转换
    • 调制解调器MODEM
      • 调制器是波形变换器,将基带数字信号的波形变换成适合于模拟信道传输的波形。(不改变数据内容)
      • 解调器是波形识别器,将经过调制器变换过的模拟信号恢复成元凯的数字信号,识别不正确则产生误码。
  • 宽带传输(光纤)

3.4 传输媒介

  • 传输介质的分类
    • 有线介质
      • 同轴电缆、双绞线、光纤等
      • 特点:需布线、抗干扰性能好。
    • 无线介质
      • 通过大气进行各种形式的传播
      • 微波、红外线、卫星等
      • 特点:无需布线,抗干扰性差
  • 传输介质的选择
    • 安全性
    • 电磁干扰
    • 费用
    • 速度
    • 信号衰减

3.4.1 电磁波谱

电磁波的频率f,波长D,其在真空中的传播速度c基本关系:
DF=C

3.4.2 双绞线

  • 由按螺旋结构排列的两根绝缘线构成。线为铜线或铜包钢。
  • 双绞线既可以传输模拟信号,也可以传输数字信号
  • 具体带宽取决于铜线的粗细,传输的距离和采用的技术
  • 双绞线可分为:STP屏蔽双绞线UTP无屏蔽双绞线
  • 多采用点到点的连接方式。
  • 抗干扰性能取决于适当的屏蔽和线对的扭曲程度,在低频传输时接近于同轴电缆。

3.4.3 同轴电缆

  • 同轴电缆是一个空心外部导体围裹着一个内部导体
  • 同轴电缆按照阻抗分为:
  • 一般采用多点连接方式
  • 抗干扰性和价格介于双绞线和光纤之间。

3.4.4 光纤

  • 由三个同心部分组成:纤芯、包层和护套。
  • 光纤可由塑料、玻璃或超高纯石英玻璃组成。
    • 不同的材料构成的光纤的损耗、传输距离和价格也不同
  • 光纤通过光信号的有无 来表示二进制0和1
  • 发送方需要电光转换设备,接收方需要光电转换设备
  • 布线中直接使用的是光缆,一根光缆由多根光纤组成。
  • 光纤的分类
    • 单模光纤
    • 多模光纤
    • 模式:是一个与很多参数有关的量,可理解为偏振方向,单模光纤可以传输多种波长,但每个波长只能有一种模式。
    • 常用的三个波长窗口

3.4.5 无线媒介

  • 电磁频谱
  • 无线电传输
    • 固定终端点(基站)和终端之间是无线链路
  • 微波传输
  • 红外线和毫米波
  • 光波传输
  • 卫星通信

3.5 数据编码

3.5.1 信号编码

  • 数字数据的编码
    • 不归零编码(NRZ)低0高1
      • 缺点:难以界定数据位的起始,直流分量可能引起连接点损坏。
    • 曼彻斯特编码
      • 每一位的中间跳变,下降1,上升0或相反
    • 差分曼彻斯特编码
      • 每一位的中间跳变,有跳变0,无跳变1

3.5.2 调制编码

  • 常用的调制技术
    • 根据载波的三个特性:幅度频率相位,产生常用的三种调制技术:
      • 幅移键控法(ASK调幅
      • 频移键控法(FSK调频
      • 相移键控法(PSK调相

3.5.3 模拟数据数字化编码

  • 模拟数据数字传输时解决模拟信号数字化问题
    • 也被称为脉冲代码调制PCM
    • 也根据Nyquist原理进行采样
    • 将模拟信号振幅分为多级(2^n),每一级用n位表示
  • 常用的PCM技术
    • 差分脉冲代码调制
      • 原理:不是将振幅值数字化,而是根据前后两个采样值的差进行编码,输出二进制数字
    • PCM转换过程举例
      • 采样-量化-编码
    • PCM转换波形图

3.6 数据通信性能指标

3.6.1 时延

  • 计算机网络中,时延指一个数据块(帧、分组、报文段)从链路或网络的一端传送到另一端所需要的时间。
  • 时延包括
    • 发送时延
    • 传播时延
    • 转发时延
      • 排队时延
      • 访问时延
      • 处理时延
  • 时延带宽积即传播时延和带宽的乘积:时延带宽积 = 传播时延*带宽
  • 时延带宽积又称为比特长度,即以比特为单位的链路长度

3.6.2 传输速率

信息传输速率与码元传输速率

  • 信息传输速率是指是指每秒传输的编码前的数字数据的二进制位数,单位是比特/秒,即b/s,bps。
    • 信息传输速率又被称为比特率
    • 计算机网络中,和信息传输速率具有同样含义的另一个术语称为带宽
  • 数字数据经线路编码后的传输信号在信道上的传输速率称为码元传输速率,它是指每秒传输的码元数,即每秒钟传输信号变化的次数,单位是波特/秒(baud/s)

波特率和比特率

  • 波特率RB
    • 信号每秒钟变化的次数,也称调制速率
  • 比特率Rb
    • 每秒钟传送的二进制位数
  • 一个新网往往可以携带多个二进制位,所以在固定的信息传输速率下,比特率往往大于波特率。一个码元中可以传送多个比特。
  • Rb = RB log2 V(V为电平的级数)
  • 编码效率 = Rb/RB

3.6.3 可靠性

  • 误码率
    • 误码率是指传输的数据被传错的概率
  • 误比特率 = 传错的比特数/传输的总比特数
    • 误帧率、误分组率

3.6.4 信道极限容量

  • 早在1924年,尼奎斯特就认识到这一根本性限制,并推导出一个有限带宽无噪声信道最大数据传输速率的表达式;

  • 尼奎斯特证明:如果一个任意信号通过带宽为H的低通滤波器,那么每秒采样2H就能完整地重现通过这个滤波器的信号。

  • 1948年,香农进一步把尼奎斯特的结论扩展到随机(动态)噪声影响的信道

  • 奈氏准则:用于理想低通信道

    • Nyquist公式为估算已知带宽无噪声信道的最高速率提供了依据。
  • 香农定理:高斯噪声干扰信道

  • 奈氏准则和香农定理的比较

    • C = 2H log2V 此公式说明数据传输率C信号编码级数增加而增加。
    • C = H log2(1+S/N) 无论采样频率多高,信号编码分多少级,此公式给出了信道能达到的最高传输速率。即噪声的存在将使编码级数不可能无限增加

3.7 信道复用技术

由于一条传输线路的能力远远超过传输一个用户信号所需的能力,为了提高线路利用率,经常让多个信号同时共用一条物理线路
常用方法:

  • 时分复用TDM
  • 频分复用FDM
  • 波分复用WDM
  • 码分复用CDM

3.7.1 频分、时分复用

  • 频分多路复用FDM
    • 当传输介质的带宽大于单个信号的要求时,为有效利用传输系统,将多个信号同时在一条传输线路上传输的技术是频分多路复用
    • FDM的实现
      • 通过调制将不同信号的频率调制到不同的频率范围
      • 多路信号合成一路频率范围更大的信号进行发送
      • 在接收方再通过解调将信号重新还原成多路信号
  • 时分多路复用TDM
    • 当传输介质的位传输率大于单个信号的要求时,为有效的利用传输系统,将多个信号同时在同一条线路上传输的技术叫时分多路复用
    • 实现方式:
      • 传输时将时间分成等长的时间片
      • 通过时间片轮转方式将时间片依次分配给指定的信号;
      • 在接收方也通过时间片轮转的方式在指定的时间片依次接收指定的信号。

3.7.2 统计时分复用

  • 同步时分多路复用
  • 异步(统计)时分多路复用

3.7.3 波分复用

波分多路复用WDM

  • 整个波长频带被划分为若干个波长范围,每个用户占用一个波长范围来进行传输。

3.7.4 码分复用

码分多路复用CDM

  • 内涵等同于CDMA
  • 允许多个用户在同一时刻使用相同频带进行通信;
  • 各用户使用经过特殊挑选的不同码型
  • 抗干扰能力强
  • 有效增大系统的通信容量
  • 最初是用于军事通信,随着CDMA设备的价格和体积大幅度下降,现已广泛应用于民用移动通信中,特别是无线局域网中。
  • CDMA工作原理
    • 比特时间进一步划分为m(或64或128)个短的时间段,称为码片
    • 每个站被指派一个唯一的m位码片序列
      • 发送比特1,则发送m位码片序列
      • 发送比特0,则发送码片序列的二进制反码
    • 任意两个码片序列(S,T)必须满足正交关系

3.8 数字传输系统

3.8.1 PCM体制

  • E1 = 2.048Mbit/s
  • T1 = 1.544Mbit/s

3.8.2 SONET与SDH

目前的数字传输复用速率存在着诸多缺点,其中最主要的是以下两个方面:速率标准不统一不是同步传输

  • 为了解决上述问题,美国在1988年首先推出了一个数字传输标准,叫做**同步光纤网SONET **(Synchronous Optical Network)。
    • SONET体系结构
  • ITU-T以美国的SONET标准为基础,制订出了**国际标准同步数字系列SDH **(Synchronous Digital Hierarchy),即1988年通过的G.707~G.709等三个建议书。

3.9 数据交换技术

交换:在多结点通信网络中,为有效利用通信设备和线路,一般希望动态地设定通信双方间的线路,动态地接通或断开通信线路,称为“交换”。
交换方式分类:

  • 电路交换
  • 存储交换
    • 报文交换
    • 分组交换
    • 信元交换
  • 混合交换
  • **电路交换                      报文交换               分组交换**
    

3.9.1 电路交换

直接利用可切换物理通信线路,连接通信双方

  • 三个阶段:
    • 建立电路
    • 传输数据
    • 拆除电路
  • 主要特点:
    • 在发送数据前,必须建立点到点的临时专用物理通路
    • 建立物理通路的时间较长,数据传输延迟较短
      • 如:电话网络

3.9.2 报文交换

  • 原理
    • 信息以报文(逻辑上完整的信息段)为单位进行存储转发
  • 特点:
    • 线路利用率高
    • 要求中间结点(网络通信设备)缓冲大
    • 延迟时间长

3.9.3 分组交换

  • 原理
    • 信息以分组为单位进行存储转发,源结点把报文分为分组,在中间结点存储转发,目的结点把分组合成报文。
    • 分组:比报文还小的信息段,通常有最大长度的限制
    • 信元:大小固定的信息段
  • 特点:
    • 网络结点设备中不预先分配资源
    • 线路利用率高
    • 结点存储器利用率高
    • 易于重传,可靠性高
    • 易于开始新的传输,让紧急信息优先通过
    • 额外信息增加
  • 分组交换分为数据报和虚电路
    • 数据报
      • 每个分组独立路由
      • 适于传送少量分组,省去呼叫建立过程,速度快
      • 可以较好处理拥塞
      • 比较可靠
    • 虚电路
      • 所有分组只作一次路由
      • 发送分组钱需要建立虚电路
      • 相对数据报,网络在处理拥塞时困难,不可靠

3.10 物理层规程

3.10.1 DTE与DCE

数据终端设备DTE

  • 指具有一定的数据处理能力、收发能力的数据输入/输出设备、终端设备或计算机等终端装置。

数据通信设备DCE

  • 自动呼叫应答设备,交换机以及其他一些中间装置的集合,其作用就是在DTE和传输线路之间提供信号变换和编码的功能,并且负责建立、保持和释放数据链路连接


3.10.2 物理层接口标准

  • ISO/OSI 关于物理层的定义
    • 物理层提供机械的、电气的、功能的和规程的特性,目的是启动、维护和关闭数据链路实体之间进行比特传输物理连接。这种连接可能通过中继系统,在中继系统内的传输也是在物理层的。
    • 物理层的功能
      • 在两个网络设备之间提供透明比特流传输
    • 研究内容
      • 物理连接的启动和关闭,正常数据的传输,以及维护管理。
  • 物理层的四个特性
    • 机械特性
      • 主要定义物理连接的边界点,即接插装置。规定物理连接时所采用的规格、引脚的数量和排列情况。
      • 常用的标准接口
        • ISO 2110,25芯连接器,EIA RS-232-C,EIA RS-366-A
        • ISO 2593,34芯连接器,V.35宽带MODEM
        • ISO 4902,37芯和9芯连接器,EIA RS-449
        • ISO 4903,15芯连接器,X.20、X.21、X.22
    • 电气特性
      • 规定传输二进制位时,线路上信号的电压高低、阻抗匹配、传输速率和距离限制。
      • 早期的标准是在边界点定义电气特性,例如EIA RS-232-C、V.28;最近的标准则说明了发送器和接收器的电气特性,而且给出了有关对连接电缆的控制。
      • CCITT 标准化的电气特性标准
        • CCITT V.10/X.26:新的非平衡型电气特性,EIA RS-423-A
        • CCITT V.11/X.27 :新的平衡型电气特性,EIA RS-422-A
        • CCITT V.28:非平衡型电气特性,EIA RS-232-CCCITT X.21/EIA RS-449
    • 功能特性
      • 主要定义各条物理线路的功能。
      • 线路的功能分为四大类:
        • 数据
        • 控制
        • 定时
    • 规程特性
      • 主要定义各条物理线路的工作规程和时序关系。

3.10.3 EIA-232

  • EIA-232-E是美国电子工业协会EIA制订的著名物理层异步通信接口标准
  • 它最早是1962年制订的标准RS-232,其中的RS表示EIA的一种“推荐标准”,232是编号。

试比较模拟通信方式与数字通信方式的优缺点

  • 模拟通信,技术很成熟,就是将【模拟信号】与【载波】进行调制,使其【带有一定载波特性】,又【不失模拟信号的独特性】,接收端通过【低通滤波器】,还原初始模拟信号。
  • 数字信号,首先进行采样,对于【采样】幅值进行【编码】,然后进行【调制】,相移键控等,接收端还原即可。
  • 区别在于
    • 由于数字通信其传输数字抽样信号,在接收端可以得到还原,所以信号传输率高,距离远。
    • 模拟信号,是对于信号的【直接调制】,与载波相乘,在传输途中有干扰时,对于系统的冲击,是【不可修复】的,所以造成【失真】。
    • 相对而言,数字通信要优于模拟通信

如何利用话音通道传输计算机数据?

答:需要经过三个步骤【PCM脉冲编码调制】

  • 采样:按一定间隔对语音信号进行采样
  • 量化:把每个样本舍入到最接近的量化级别上
  • 编码:对每个舍入后的样本进行编码

编码后的信号称为PCM信号可以通过话音通道传输。

试比较电路交换、报文交换、虚电路交换和数据报交换的特点

  • 报文交换不建立专用链路,线路利用率较高,由于【不同报文相差可能较为悬殊】导致传输的【延时较大】且中转结点【缓冲区管理不便】。
  • 数据报和虚电路都是分组交换,分组是【有一最大长度限制】的报文。
  • 数据报交换完全类似于报文交换。
  • 虚电路交换,类似于电路交换,它与线路交换的区别在于:逻辑连接并不意味着别的通信不能使用这条线路。它仍然具有【线路共享】的优点。
  • 虚电路与数据报的区别:
    • 虚电路意味着可靠的通信,它涉及更多的技术,需要更大的开销。
    • 没有数据报方式灵活,效率不如数据报方式高。
    • 虚电路适合于交互式通信,**数据报方式更适合于单向地传送短信息。 **
  • 电路交换需要在收发双方建立明确的物理电路,且该电路资源为当前会话所独享

请画出 **011000101111 **的不归零编码、曼彻斯特编码和差分曼彻斯特编码的波形图


现在需要在一条光纤上发送一系列计算机屏幕图像。屏幕的分辨率为 480 640 像素,每个像素为 24 位。每秒种有 60 幅屏幕图像。请问:需要多少带宽?在 1.30μm 波长上,这段带宽需要多少μm 的波长?


为什么 PCM 采样时间被设置为 125μs?


请比较一下在一个【电路交换】网络与在一个轻负载的【分组交换】网络上,沿 k 跳的路径发送一个 x 比特消息的延迟情况。假设电路建立的时间为 s 秒,每一跳的传播延迟为 d 秒,分组的大小为 p 位,数据传输速率为 b bps。试问在什么条件下分组网络的延迟比较短?

答:对于电路交换,t=s 时电路创建,t=s+x/b 时消息的最后 1 位发送完毕,t=时
消息达到目的地。对于分组交换而言,最后 1 位在 t= x/b 时发送完毕,为到达最
终目的地,最后一个分组必须被中间路由器转发 k-1 次,每次转发时间为 p/b,故总总延时为 x/b+(k-1)p/b+kd.
为使分组交换比电路交换快,必须满足条件 x/b+(k-1)p/b+kd< s+x/b+kd,即 s>(k-
1)p/b。

上一章:《计算机网络原理》第二章 网络体系结构

《计算机网络原理》全部笔记索引

下一章:《计算机网络》第四章 数据链路控制

❤️这里是 三千步, 让我们一起学习进步~❤️

大数据三大核心技术:拿数据、算数据、卖数据!

参考技术A

大数据的由来

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

1

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

大数据的应用领域

大数据无处不在,大数据应用于各个行业,包括金融、 汽车 、餐饮、电信、能源、体能和 娱乐 等在内的 社会 各行各业都已经融入了大数据的印迹。

制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

汽车 行业,利用大数据和物联网技术的无人驾驶 汽车 ,在不远的未来将走入我们的日常生活。

互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。

电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。

能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。

物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。

城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。

体育 娱乐 ,大数据可以帮助我们训练球队,决定投拍哪种 题财的 影视作品,以及预测比赛结果。

安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

个人生活, 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。

大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了 社会 生产和生活,未来必将产生重大而深远的影响。

大数据方面核心技术有哪些?

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

数据采集与预处理

对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。

Flume NG

Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除channel中的信息。

NDC

Logstash

Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择,可以在同一时间从众多常用的数据来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。

Sqoop

Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业(极其容错的分布式并行计算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。

流式计算

流式计算是行业研究的一个热点,流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流分析工具有很多,比如开源的strom,spark streaming等。

Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是Storm提供的后台守护进程,之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker因为错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。

Zookeeper

Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了手动拷贝配置的繁琐,还很好的保证了数据的可靠和一致性,同时它可以通过名字来获取资源或者服务的地址等信息,可以监控集群中机器的变化,实现了类似于心跳机制的功能。

数据存储

Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。

HBase

HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

Phoenix

Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。

Yarn

Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。

Mesos

Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。

Redis

Redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。

Atlas

Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来,Atlas相当于连接它的客户端,在前端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通讯,它实现了MySQL的客户端和服务端协议,同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节,同时为了降低MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责监听所有的客户端连接请求,工作线程只监听主线程的命令请求。

Kudu

Kudu是围绕Hadoop生态圈建立的存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。Kudu的应用场景很广泛,比如可以进行实时的数据分析,用于数据可能会存在变化的时序数据应用等。

在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减少磁盘上的存储。

数据清洗

MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。

随着业务数据量的增多,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统,比如oozie或者azkaban,对关键任务进行调度和监控。

Oozie

Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的提交请求(提交工作流作业),当提交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业),然后向Oozie提交Workflow,Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因,用户程序不必等待作业执行完成(因为有些大作业可能会执行很久(几个小时甚至几天))。Oozie在后台以异步方式,再将workflow对应的Action提交给hadoop执行。

Azkaban

Azkaban也是一种工作流的控制引擎,可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server用来调度工作流和任务,记录工作流或者任务的日志。

流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台,其特点是易用、实时、可靠,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求

数据查询分析

Hive

Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapReduce jobs,然后在hadoop上面运行。Hive支持标准的SQL语法,免去了用户编写MapReduce程序的过程,它的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。

Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈 。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特点,过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中,用户只需要创建表,导入数据,编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。

Impala

Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala将整个查询分成一执行计划树,而不是一连串的MapReduce任务,相比Hive没了MapReduce启动时间。

Hive 适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证想法的大数据分析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用像Hive那样把它组合成管道型的map->reduce模式,以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。

Spark

Spark拥有Hadoop MapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。

Solr

Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。

Elasticsearch

Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等,常用的机器学习算法比如,贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

数据可视化

对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。

在上面的每一个阶段,保障数据的安全是不可忽视的问题。

基于网络身份认证的协议Kerberos,用来在非安全网络中,对个人通信以安全的手段进行身份认证,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。

控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。

简单说有三大核心技术:拿数据,算数据,卖数据。

以上是关于数据通信技术的主要内容,如果未能解决你的问题,请参考以下文章

物联网安全知识点总结--第五章 物联网网络层安全

物联网27.物联网开发 - 网络

物联网的技术构架

对于当今最流行的大数据技术AL人工智能技术。物联网技术。你了解多少?

(专升本)Internet(物联网)

物联网学习之路——物联网通信技术:NBIoT