多媒体技术2023-04-08

Posted 2023-04-08 Chuck Lu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多媒体技术2023-04-08相关的知识，希望对你有一定的参考价值。

实验六老照片的修复，使用Photoshop

污点修复画笔工具，画笔大小，硬度(边缘柔化)

修复画笔工具，用来处理划痕。

先取原样本，然后alt看效果。

实验七花朵的仿制和变色

仿制图章工具，取完样本，再来绘画。按住alt取原，然后绘制。

图案图章工具，取图案的一部分，

画笔里面有一个颜色替换工具。

橡皮擦工具，背景橡皮擦

按住alt键，移动。然后在目标处，鼠标左键。

历史记录画笔工具，把多涂抹出来的去除掉(仿制图章工具多弄出来的)。能保留图片原本的颜色

多媒体通信

1.概述

1.1 五种媒体的概念

1 感觉媒体

能直接作用于人的感官，使人产生感觉的媒体，分为静态（照片）和动态（视频）两类。

2 表示媒体

计算机对信息的表示方式的描述；
为了能有效地加工、处理、存储和传输感觉媒体信息；
对感觉媒体的编码（表示成数字信号，并压缩）

多媒体通信对表示方法的要求： 存储量尽量小，但尽可能不失真。

注意： 多媒体通信中的媒体特指表示媒体

3 显示媒体

进行信息输入和输出的媒体（表现和获取信息的物理设备）;
通信中电信号和感觉媒体之间转换所用的媒体

多媒体通信对显示媒体的要求： 失真控制在一定范围内。

4 存储媒体

存储表示媒体信息的媒体（物理介质），以便计算机随时调用或供其他终端远程调用。

多媒体通信对存储的要求： 足够的容量，迅速的存取，足够的带宽。

5 传输媒体

承载信息，将信息进行传输的媒体；
用于将表示媒体信息从一地传输到另一地的物理实体

多媒体通信对传输媒体的要求： 足够的带宽、同步、误码率低。
特点： 传输信息的物理载体

1.2 五种媒体间的关系、信息传递过程中五种媒体间的转换过程。

几种媒体的关系：

信息传递过程：

1.3 多媒体通信系统的三个特点

注意： 多媒体通信系统的集成性、交互性、同步性三个特征必须并存，缺一不可

1 集成性

1. 多种媒体的集成：
多媒体通信系统能够处理、存储和传输多种表示媒体，并能捕获并显示多种感觉媒体，因此多媒体通信系统集成了多种编译码器，多种感觉媒体的显示方式，能与多种传输媒体接口，并且能与多种存储媒体通信。

2. 多种业务的集成：
电视信号的处理、电子邮件、信息查询等等。

2 交互性

交互性包括人机交互和人与人的交互。

3 同步性

同步性是指在多媒体通信终端上所显示的文字、声音和图像是以在时空上的同步方式工作的。

1.4 多媒体通信涉及的关键技术

1 多媒体数据压缩技术

多媒体通信中最关键的技术

多媒体信息 (数据量=信息量+冗余量) 中包含大量冗余的信息，把这些冗余的信息去掉的过程即为压缩。

解压缩后信息恢复质量是评价压缩好坏的主要方面

2 多媒体数据库及检索技术

3 多媒体网络技术

能够满足多媒体应用需要的通信网络必须具有高带宽、可提供服务质量的保证、实现媒体同步等特点。

代表：以软交换为核心的NGN网络

4 多媒体信息存储技术

要求：存储设备的存储容量足够大，还要保证存储设备的速度要足够快，带宽要足够宽。

5 多媒体终端技术

多媒体通信终端功能：采集、处理、显示及数据同步等功能。
多媒体通信终端的特点：集成性、同步性、交互性。

1.5 多媒体通信的体系结构

多媒体通信的体系结构模式：

1 传输网络

体系结构的最底层，它为多媒体通信的实现提供了最基本的物理环境。

2 网络服务平台

该层主要为用户提供各类网络服务，使用户能直接使用这些服务内容，而无需知道底层传输网络是怎么提供这些服务的，即网络服务平台的创建使传输网络对用户来说是透明的。

3 多媒体通信平台

该层主要提供其通信支援（如多媒体信息处理），并支持各类多媒体的应用。

1.6 多媒体通信的业务类型

1.7 多媒体通信常见的应用

一般应用：指人们常见的一些多媒体应用。如多媒体信息检索。
特殊应用：指业务性较强的某些多媒体应用。如电子邮购、远程医疗。

多媒体通信系统及应用：

多媒体信息检索与查询系统
视频点播系统
视频会议系统
远程教育系统
多媒体即时通信系统

2.数字音频编码

2.1 声音信号概念及特点

声音： 通过介质传播的一维的连续波，这种连续性表现在两个方面：一是时间上的连续性，二是幅度上的连续性。

衡量分析：

产生和传播：可以用很具体的物理量来进行说明，是客观的描述。
分析：人耳和大脑对声音的处理过程是一个主观的过程，是和人的心理及生理特性有关的。

2.2 描述声音的主客观参数

衡量参数：

主观参数：响度（强弱）、音调、音色（人耳听觉三要素）
客观参数：声压或声强（幅度）、频率、波形（频谱结构）

声音的强弱~幅度的大小
音调的高低~频率的高低
音色~叠加在基波上的谐波有关（谐波越丰富，音色越好）

2.3 人耳听觉特性

1 基本参数

人耳能感受到的声音频率范围：20 Hz～20 kHz

人的发音器官能发出的声音频率：80 Hz～3400Hz
多数人的语音信号能量主要集中的频率：500Hz～1 kHz

人的听觉器官能感知的声音幅度：0dB ～ 120dB
人耳的听阈：0db
人耳的痛阈：120db

只保留400 Hz～6 kHz频率范围的语音，人耳就可以完全听清音节

听觉阈值电平：听觉阈值电平随声音频率的不同而不同。不同的个人听觉阈值电平也不同。大多数人对2KHz~5KHz之间的声音最敏感。

声压级（分贝）：20×lgP/P0

P：声压
P0：对1000HZ声音人耳刚能听到的最低声压，P0=0.00002Pa

2 掩蔽效应

一个频率声音的听阈由于另一个声音的存在而上升的现象称为掩蔽

“掩蔽效应”的实质是掩蔽声的出现使人耳听觉的等响曲线的最小可闻阈得到提高。由于掩蔽声音的存在，要听到被掩蔽声音，被掩蔽声音的听阈必须提高一定的分贝数，这个提高的分贝数就称为一个声音对另一个声音的掩蔽值。提高后的听阈称为掩蔽阈

利用人耳对声音的掩蔽效应，可用有用的声音信号去掩蔽那些无用的声音信号
只需将那些对人没有用的声音的声压级降低到掩蔽域之下就可，完全没必要花力气彻底消除对人无用的声音信号。MPEG音频编码中，利用人耳听觉的掩蔽效应来实现高效率的数据压缩

人耳可以接收到的低频信息高于高频信息。在低频区，几Hz的差异都可以分辨出来，而在高频区，必须几百Hz的差别才能分辨出来

频域掩蔽： 较强的声音信号掩蔽掉，临界频段中同时出现的较弱信号。
时域掩蔽： 时间上相邻的声音之间也有掩蔽现象。因为大脑处理导入的信息需要花费一定的时间。

2.4 三类音频编码方法

1 概念

波形编码： 基于语音信号波形的数字化，表示音频信号的波形。
应用：脉冲编码调制(PCM)

语音信号数字化过程：抽样→量化→编码
语音信号数字化参数：采样频率（fs>=2fmax）、量化精度（编码比特数或位深度）、声道数（声波数据个数）。

参数编码： 通过构造发声的模型，提取特征参量进行量化编码。

混合编码： 在参数编码的基础上对信号激励源进行了改进，将波形编码与参数编码结合起来。

2 特点

波形编码：
优点：实现简单、保真度好、计算量不大、适应性强等
缺点：压缩程度不是很高，实现的编码速率比较高

参数编码：
优点：编码后速率低，压缩率很大
缺点：：计算量大、保真度欠佳

混合编码：
特点：兼有波形编码的高质量和参数编码的低速率

3 码率的计算

声音的码率（编码速率/比特率）：每秒记录音频数据所需要的比特值，通常以kbps（千比特/秒）为单位。

声音未经压缩时的码率：声音的码率＝采样频率×量化精度×声道数
某个音频信号所需存储容量：存储容量＝播放时间×声音码率÷8（字节）

案例：CD唱片的采样频率是44.1kHz，量化精度为16位，声道数为2（立体声），那么，根据上式计算出每分钟声音的数据量：
44100×16×2×60/8≈10.09MB

波形编码的比特率一般在16Kbit/s至64 Kbit/s之间，数码率低于32 Kbit/s的时候音质明显降低，16 Kbit/s时音质就非常差了。

2.5 分量编码

框图：

1 差值脉冲编码调制(DPCM)

对相邻样值的差值进行量化编码，差值比较小，可以为其分配较少的比特数，进而起到了压缩数码率的目的。

对当前样值完整的预测值表达式:

差分脉冲编码调制就是对上面的一系列差值进行量化编码，再进行存储或传输，由于话音信号相邻样值之间有很强的相关性，所以预测值与实际值是很接近的。

DCPM实现压缩编码的原理： 由预测值得到当前值的差值。差分脉冲编码调制就是对上面一系列差值进行量化编码，再进行存储或传输。
由于话音信号相邻值之间有很强的相关性，所以预测值与实际值很接近，其差值很小，也就可以用比较少的比特数来进行编码表示，进而起到压缩编码的目的。在接收端或在对数据进行回放时，可用类似的过程重建原始数据。

2 自适应差分脉冲编码调制（ADPCM）

为了进一步提高编码的性能，将自适应量化器和自适应预测器结合在一起用于DPCM之中，从而实现了自适应差分脉冲编码调制（ADPCM）。
对比DPCM，预测系数与量化间距发生自适应改变

ADPCM实现压缩编码的原理： 将自适应量化器和自适应预测器结合在一起用于DPCM中，从而实现了自适应差分脉冲编码调制（ADPCM）。其中量化阶距正比于量化器输入信号的方差，预测系数随输入信号的变化而变化，从而进一步提高了编码的性能。

3 线性预测编码LPC

对声道模型参数ai、增益控制G、清浊音判决u/v、基音周期Tp进行了量化编码

4 子带编码

可将输入信号用某种方法划分成不同频段上的子信号，根据各子信号的特性，分别编码。
比如，对语音信号中能量较大，对听觉有重要影响的部分（如500～800 Hz频段内的信号）分配较多的码字，对次要信号（如话带中大于3 kHz的信号）则分配较少的码字。

子带编码的原理：
将输入信号用某种方法划分成不同频段上的子信号，根据各子信号的特性，分别编码。例如：一些重要的/能量较集中的信号分配更多码字，对一些不重要/能量较少的信号分配更少的码字。

子带编码的优点：

对不同的子带分配不同的比特数可以很好控制各个子带的量化电平数及重建信号时的量化误差方差值，进而获得更好的主观听音质量。
由于各个子带相互隔开，是各个子带的量化噪声也相互独立，互不影响，量化噪声被束缚在各自的子带内。这样，某些输入电平比较低的子带信号不会被其他子带的量化噪声所淹没。
子带划分的结果，是各个子带的采样频率大大的降低

5 矢量量化编码（VQ）&感知编码

矢量量化编码：

基本原理：用码书中与输入矢量最匹配的码字的索引（下标），代替输入矢量进行传输与存储。

传输内容：对应每个矢量的下标

矢量编码通过传输和存储码字的下标来实现数据的压缩。

三大技术（与发送电报类比）：

码书设计（类似电报号码本）
码字搜索（类似根据所发汉字查电报号码本）
码字索引（下标）分配（类似用来发送的与汉字对应的号码）

感知编码：

理论基础：基于人耳的闻域、临界频段和掩蔽效应

听觉阈值：人能听到声音取决于声音的频率以及声音的幅度是否高于这一频率下的听觉阈值。听觉阈值也会随着声音频率变换有所不同。编码时去掉阈值以外的电平就相当于对数据进行了压缩

临界频段：人耳对不同频段声音的反应灵敏度是有差异的，在低频段对几赫兹的声音差异都能分辨，而在高频段的差异要达到几百赫兹才能分辨。编码时要对低频段进行精细的划分，而对高频段的划分可以粗略

掩蔽效应：
频域掩蔽：在频域，一个强音会掩蔽掉与之接近的弱音，掩蔽特性与掩蔽音的强弱、掩蔽音的中心频率以及掩蔽音与被掩蔽音的频率相对位置有关。
时域掩蔽：掩蔽效应发生在掩蔽音与被掩蔽音不同时出现时，也称为异时掩蔽。
在编码时，对被掩蔽的弱音不必进行编码，从而达到数据压缩的目的。在感知编码中使用了心理模型。

感知编码的实现：

利用人耳听觉的心理声学特性（包括频域掩蔽特性和时域掩蔽特性）。只记录那些能够被人耳感觉到的声音，从而达到压缩数据量的目的。
感知编码的理论基础基于人耳的闻阈、临界频段和掩蔽效应
编码时只针对人耳闻阈之内的信号进行编码，对被屏蔽的弱音不编码，从而达到压缩数据的目的。

6 音频压缩编码标准的两个系列

G系列音频压缩编码标准（ ITU （国际电信联盟） -T ）

MPEG音频编码标准
由ISO/IEC （国际标准化组织）制定，是国际上公认的高保真立体声音频压缩标准

MPEG-1音频编码
信号频带：20～20kHz
取样频率：32kHz、44.1kHz、48kHz
编码算法：子带编码
编码分层：Layer-1、Layer-2、Layer-3
Layer-1和Layer-2主要区别是子带划分不同和FFT的运算点数不同， Layer-3采用的心理学模型与编码方法更复杂。

Layer-1：最简单，用于小型数字盒式磁带。只有左右两个声道
Layer-2：中等，主要用于数字广播音频、数字音乐、只读光盘交互系统和视盘
Layer-3：最复杂，主要用于ISDN上的声音传输（即MP3 ）

三种编解码器方框图：
MPEG-2 BC声音压缩标准
MPEG为多声道声音开发的低码率编码方案，与MPEG-1相比主要增加了下面几个方面的内容：
支持5.1多路环绕立体声
扩展了编码器的输出范围
增加了更低的取样频率和低码率

编解码器框图：
MPEG-2 AAC声音压缩标准
MPEG-2标准中一种非常灵活的编码标准，采用感知编码方法
利用听觉系统的掩蔽特性来减少声音编码的数据量；并且通过子带编码将量化噪声分散到各个子带中，用全局的声音信号将噪声掩蔽掉
MPEG-4音频标准
综合了多种类型的音频编码
MPEG-4音频编码标准集成了从话音到高质量的多声道声音，从自然声音到合成声音。采用的编码方法有多种，包括参数编码、码激励线性预测编码CELP、时间/频率编码、结构化声音SA编码和文-语系统TTS的合成声音

7 常见声音文件格式

分类：

有损格式：压缩过程中追求更小体积，会让原始音频信息受损和失真（MP3、WMA、OGG等）
无损格式：压缩过程追求更小体积的同时，保证100%保留源文件音频数据（APE、FLAC等）

常见音频文件格式：

3.数字图像与视频压缩编码

3.1 人眼视觉特性

1 对颜色的感知

颜色：视觉系统对可见光（380～780 nm）的感知结果，颜色只存在于眼睛和大脑。

人的视网膜(human retina)通过神经元感知外部世界的颜色，每个神经元是一个对颜色敏感的锥体(cone) 。
红、绿和蓝三种锥体细胞对不同频率的光的感知程度不同，对不同亮度的感知程度也不同
从理论上说，自然界中的任何一种颜色都可以由R，G，B这三种颜色值之和来确定，它们构成一个三维的RGB矢量空间

2 对比度灵敏度特性

对比度： 景物或重现图像的最大亮度Lmax与最小亮Lmin之比，用符号C表示，即C=Lmax/Lmin

灰度： 画面的最大亮度与最小亮度之间所能分辨的亮度感觉级数称为亮度层次，，也称灰度

临界对比度Cr： 人眼在给定的亮度环境下所能区分景物的最小亮度差别

亮度级： 这一最小亮度差别为一个亮度级（或灰度级）

对比度灵敏度： 1/Cr

3 亮度掩蔽效应

背景亮度变化越剧烈，人眼的对比度灵敏度越低

应用：低频系数细量化，高频系数粗量化
例如：若是高频部分（变化剧烈地方），可多一些采样点反应细节，可以粗量化。若低频部分（变化缓慢的地方），可以少一些采样点，并细量化。

4 视觉的时域特性

视觉惰性（视觉暂留特性）：
当一个景物突然出现在眼前时，需经过一定的时间才能形成一个稳定的主观亮度感觉；同样当一个实际景物从眼前消失后，所看到的印象都不会立即消失，还会暂留一段时间，由此可见人眼亮度感觉的建立与消失都滞后于实际的光刺激，而且此过程是逐步的，这样一种现象就是视觉惰性。
应用：因此在电影中通过每秒变换24次静止画面以给人一个较好的连续运动的感觉。而在电视技术中则是利用电子扫描的方法，每秒更换25~30幅图像来获得图像连续感。
闪烁：
如果观察者观察到一个具有周期性的光脉冲，当其重复频率不够高时，便会产生一明一暗的感觉，这种感觉就是闪烁，但当重复频率足够高时，闪烁感觉将消失，随之看到的是一个恒定的亮点。临界闪烁频率就是指闪烁感觉刚刚消失时的频率。在电影环境的亮度照明下，人眼的临界闪烁频率约为46Hz
运动的连续性：
通常为了保持画面中运动物体的连贯运动过程，要求每秒钟摄取的图像画面数约为25帧左右，即帧率为25Hz

3.2 颜色模型

颜色模型： 某个三维颜色空间中的一个可见光子集，它包含某个颜色域的所有颜色。
用途： 在某个颜色域内方便的指定颜色

1 RGB模型与CMYK模型

RGB——显示系统
颜色＝R(红的百分比)＋G(绿的百分比)＋B(蓝的百分比)

CMYK——印刷工业

相加色与相减色是互补色：

2 XYZ模型

XYZ——传输存储

XYZ模型包括：YUV、YIQ和YCbCr三种模型，主要用于存储传输。

RGB模型不用于传输系统的原因：

大大加宽视频信号带宽
与单色电视不兼容
增加相关设备成本

三种电视系统：

PAL（逐行倒相正交平衡调制）
大多数西欧国家、中国、中东 25帧/秒 YUV
NTSC（正交平衡调幅制）
北美、日本等部分亚洲国家 30帧/秒 YIQ
SECAM（顺序传送彩色与存储制）
前苏联、东欧、法国、 25帧/秒 YUV

3 YUV模型

Y——亮度、UV——色度信号
U——蓝基色分量与亮度分量的差值信号
V——红基色分量与亮度分量的差值信号

适用于PAL和SECAM彩色电视制式

k1,k2为加权系数，加权系数不同，那么在相同亮度信号下，所得到的色差信号也不同

Y、 U、 V采样频率的比例有4∶2∶2和4∶1∶1

案例：例如要存储RGB彩色图像，即R、G、B分量都用8比特表示，图像大小为640×480像素，那么所需要的存储容量为：
640×480×3×8/8＝921 600字节；
如用Y∶U∶V＝4∶1∶1来表示，每个像素用8比特表示：
640×480×(8+8/4+8/4)/8＝460 800字节
尽管数据量减少了一半，但人眼察觉不出有明显变化

人眼的视觉对亮度的敏感程度远高于对色差的敏感程度，所以可以采用比亮度信号更窄的频带来传送色差信号

4 YIQ模型

Y——亮度信号、IQ分量分别由UV分量旋转33度

适用于NTSC彩色电视制式

5 YCbCr模型

由YUV模型派生出来的模型

Y——亮度分量、Cb——蓝色色度分量、Cr——红色色度分量

适用于计算机用的显示器

主要用于数字电视系统以及图像视频压缩标准

6 HSI模型

反映了人的视觉系统观察彩色的方式（根据人对颜色的感觉来描述颜色的颜色模型）

图像处理

I分量与图像的彩色信息无关，H和S分量与人感受颜色的方式是紧密相联的

3.3 分量编码方法

通过RGB到YUV的转换过程可以消除一定的相关性，且经过变换后将表示亮度的量和表示彩色的量分开，这样可以利用人眼视觉对彩色的分辨能力低于对亮度细节的分辨能力的特点，采用比亮度信号更窄的频带来传送色差信号

发送端RGB→YUV
接收端YUV→RGB

彩色图像信号分量编码系统的基本框图：

3.4 采样

采样：空间上连续的图像变换成离散点的操作

两个重要参数：采样间隔、采样孔径

静态图像： 先沿垂直方向采样，再沿水平方向采样；
运动图像： 先在时间轴上采样，再沿垂直方向采样，最后沿水平方向采样。

1 二维采样定理

采样频率的选择： PAL制式亮度信号的带宽为6MHz

2 采样格式

目前使用的采样格式有如下几种：

4：4：4采样方式
高端的底片扫描仪和电影后期处理采用
fy=fcb=fcr=13.5MHz

4：2：2采样方式
高端数字视频格式
fy=13.5MHz、fcb=fcr=6.75MHz

4：1：1采样方式
DV
fy=13.5MHz、fcb=fcr=3.375MHz

4：2：0采样方式
视频的发行，DVD，视频编码标准
fy=13.5MHz、fcb=fcr=6.75MHz
色差信号的行数是亮度信号的1/2，色差信号样点数构成的矩阵是亮度矩阵的1/4

把采样后所得的各像素的灰度值转换为整数的过程称为量化。（从模拟量到离散量的转换）

3.5 WEB常用的三种图像文件格式

3.6 信息熵

1 离散信源的信息熵

消息：一个有次序的符号（如状态、字母、数字或电平等）序列

对于无记忆的图像信息源(上述信息源X中所发出的各种符号彼此独立无关)而言，我们无法确切地知道信息源在下一时刻发出的符号是符号集中的哪一个符号。
信息源所发出的符号Si本身就是一个随机变量，而其信息量I又是Si的函数，I也是一个随机变量。
符号集Sn中每个符号的平均信息量H（X）为：

在信息论中称H(X)为图像信息源X的“熵”，其单位为bit/符号。

2 无记忆信源的概率分布与熵的关系

计算图像熵的方法有两种：

对图像的信息源概率分布提出数学模型，然后根据该模型进行熵的计算；
将图像分割成统计上相互独立的子像块，当一幅图像所包含的子像块足够多时，便能具体测量出每个子像块出现的概率。

p=0或1时，H(X)=0，而当p=1/2时，H(X)最大，并且等于1bit/符号，其余情况下，所含的信息量总低于1bit/符号。

3 信源的相关性与序列熵的关系

序列熵与其可能达到的最大值之间的差就是信源所含的冗余度。由此可以得到另一种数据压缩的方法，去除信源各符号之间的相关性，其相关性去除得越多，越趋于无记忆信源。

3.7 图像的统计特性

图像信号经过采样、量化后数据量仍然很大，需要进行压缩编码。为了更好的压缩图像数据，不仅要研究人眼的视觉特性，还要研究图像的统计特性。
图像统计特性：图像的亮度、色度（或色差）值或亮度、色度（或色差）抽样值的随机统计特性。
在进行各类图像压缩编码过程中，将根据图像的统计特性找出最佳的压缩编码方案，使其编码后的信号速率等于图像的信息熵

1 图像空间域统计特性

用来反映任意两个像素之间的相关性，也就是在统计平均的意义上来计算它们之间的相似程度

相邻像素之间的相关特性随两像素之间距离增大而减小

2 图像差值信号统计特性

帧内差值统计特性：指对一幅(帧)图像内部像素进行的统计特性。

设同一行相邻的两个像素f (i,j) 和f (i,j+1)，同一列相邻的两个像素f (i,j)和f (i +1,j)，则有：

帧间差值统计特性：

帧间差值信号统计特性为电视图像的帧间压缩编码提供重要依据

3 图像频域统计特性

从频谱角度看出，电视/图像信号绝大部分能量集中于频率域中的低频部分

3.8 无失真编码方法

无失真图像压缩编码：图像经过压缩、编码后恢复出的图像与原图像完全一样，没有任何失真。（熵编码）

有损压缩编码：解码后的数据与原始数据相比有一定的偏差, 但仍可保持一定的视听质量和效果。它主要利用人的视、听觉特性, 在保持一定保真度下对数据进行压缩, 其压缩比可达100∶1。

1 数据压缩的性能指标

2 霍夫曼编码

主要编码思路是对出现概率较大的符号用较短的码来表示，而对于出现概率较小的符号则用较长的码来表示。可见这是一种变长编码，而且哈夫曼编码又称为最优码

编码过程：

排序：按符号出现的概率从大到小进行排列。
赋值：对最后的两个符号进行赋值，概率大的赋“1”，概率小的赋“0”（反之也成立）。
合并：将上述最后的两个符号出现概率相加合成一个概率。
重新排序：将合成后的概率与其它符号概率一起进行重新排序（从大到小）。然后重复步骤2的内容，直至最后只剩下两个概率为止。
码字分配：从最后一步开始反向进行码字分配，对最后两个概率中较大的赋“1”。对较小的赋“0”（与第二过程中的规定相同）。从而形成一个码字。

例：假设某符号集X中包含6个符号：S1,S2,┈S6，各自出现的概率为：

试求其哈夫曼编码及其编码效率：

解：大概率放在前面

哈夫曼编码：下图给出了哈夫曼编码过程，其中设两个符号中较大的编为”1”，较小的编为”0”

编码结果：

编码效率：
信源熵：

平均码长：

编码效率：

压缩比：

霍夫曼编码特点：

编码不唯一，但平均码长相同，编码效率相同。
对不同信源其编码效率是不同的。
电路实现复杂，存在误码传播。
霍夫曼编码是唯一可译码
对信源符号按概率由大到小的顺序重新排列时，应使合并后的新符号尽可能排在靠前位置，使短码得到充分利用。
图像信号是有记忆信源，一阶熵并不是数码率的下界，在用变长编码前，可以先去除相关性。
霍夫曼编码性能最优，但是缺乏构造性（不能用数学方法建立消息与码字之间的关系）。

2 算术编码

在信源概率分布比较均匀情况下，哈夫曼编码的效率较低，而此时算术编码的编码效率要高于哈夫曼编码，同时又无需向变换编码那样，要求对数据进行分块，因此在JPEG扩展系统中以算术编码代替哈夫曼编码。
算术编码是非分组码，是对整个符号串进行编码。而霍夫曼编码是单个符号映射成一个码字。
我们可以将要编码的信息表示成实数轴0~1之间的一个间隔。这样如果这个信息的符号串越长，编码表示它的间隔就越小，同时表示这一间隔所需的二进制位数也就越多。

码区间的分割
设在传输任何信息之前信息的完整范围是[0,1]，算术编码在初始化阶段预置一个大概率p和一个小概率q。如果信源所发出的连续符号组成序列为Sn，那么其中每个Sn对应一个信源状态，对于二进制数据序列Sn，我们可以用C(S)来表示其算术编码，可以认为它是一个二进制小数。
算术编码规则
如果某个符号的出现只与前m个符号有关，其所对应的区间为[C(S),C(S)+A(S)] ，其中A(S)代表子区间的宽度，C(S)是该半开子区间中的最小数，而算术编码的过程实际上就是根据符号出现的概率进行区间分割的过程，随着信息的不断出现，子区间按下列规律减小。

例：四个符号概率如表所示，对符号序列S3S3S2进行算术编码

解：
算术编码的译码：
输入符号： S3 S3 S2 …….输出码字： 0.10011 …….
新译码点C＝(原译码点C－P）/ p

综合案例：四个符号概率如表所示，对符号序列S2S3S1S1，分别求其哈夫曼编码和算术编码。

哈夫曼编码过程：

哈夫曼编码结果:

算术编码过程：
大概率符号不会增加码长，因为其累加概率为0

算术编码特点：

算术编码是一组符号序列与一串码字一一对应。
对累加概率为0的符号编码时，不会增加码长。故一般将大概率的符号置于前面。
符号序列较长或信源符号概率较接近时，算术编码比霍夫曼编码效率高。
算术编码对不同符号均有相同的递推关系，但每次递推都要做乘法，故算法与硬件实现较复杂，实时性难以保证。

3.9 运动估计

基于块匹配法的运动估计：

运动估计就是寻找运动物体的运动矢量；运动估计多采用块匹配法

1 块匹配准则

2 搜索范围

3 典型的块匹配算法

全搜索算法（FS）

以A为中心，以5个像素距离搜索并计算
以B为中心，以4个像素距离搜索并计算
以C为中心，以3个像素距离搜索并计算
以D为中心，以2个像素距离搜索并计算
以E为中心，以1个像素距离搜索并计算
最后找到最佳匹配块是以F为中心的子块

总共要计算(1+2dm) * (1+2dm) 次匹配运算，且搜索算法时间占到整个编码时间的50%~80%

优点：能达到全局最优
缺点：运算量大

二维对数算法（TDL）

开创了快速算法的先例
搜索模板：“十”字形分布的五个点，步长为1时，采用周围8个点构成。
从原点开始，选取一定的步长。
若最匹配点在边缘保持步长不变。
若最匹配点位于中心点将步长减半。
若步长为1，在中心及周围8个点处找出最匹配点。

优点：搜索速度快
缺点：易陷入局部最优

三步搜索法（TSS）

采用一种由粗到细的的搜索模式
搜索模板：按一定步长取周围8个点。
从原点开始，选取一定的步长。
随后每一次步长减半

优点：搜索速度快
缺点：易陷入局部最优

菱形搜索法（DS）

基本思想：
本算法经过多次改进，已成为目前快速匹配算法中性能最优异的算法之一，也叫钻石形搜索法；1999年10月，DS算法被MPEG-4国际标准采用并收入验证模型。,

使用两种搜索模板，9个检测点的大模板LDSP和5个检测点的小模板SDSP
搜索时，先用大模板计算，当最匹配块出现在中心点处时，换大模板为小模板，再进行匹配计算，5个点中的最匹配点即为最优点。

先用LDSP进行粗定位，避免搜索窗口太小时，陷入局部最优；
再用SDSP准确定位，保证匹配精度
搜索时各步之间相关性强，只需要在几个新的检测点处进行匹配计算，提高了搜索速度。

特点：保证搜索速度同时能保证精度。

菱形搜索法的搜索过程：

用LDSP在搜索区域中心及周围8个点处进行匹配计算，若最匹配点位于中心，则进行第3步，否则进行第2步
以上一次找到的最匹配点为中心点，用心的LDSP来计算，若最匹配匹配点为中心点，则进行第3步，否则，重复此步
以上一次找到的最匹配点为中心点，将LDSP换为SDSP，在5个点处计算，找到最匹配点，该点所在位置即为最佳运动矢量

菱形搜索法的算法特点：

选用了两中形状的搜索模板，先用LDSP搜索，部长大，搜索范围广，进行粗定位，避免了局部最优；粗定位之后，再用SDSP进行准确定位，保证了匹配精度
搜索时各步之间相关性强，模板移动只需要在几个新的监测点处进行匹配计算，提高搜索速度

以上是关于多媒体技术2023-04-08的主要内容，如果未能解决你的问题，请参考以下文章