十四变换编码:1矩阵运算正交变换离散余弦变换基本概念
Posted 叮咚咕噜
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了十四变换编码:1矩阵运算正交变换离散余弦变换基本概念相关的知识,希望对你有一定的参考价值。
一、矩阵(Matrix)
- 矩阵的定义
- 由m * n个数字按照m行、n列排列成的数表称为矩阵
- 如变换系数的基本单位即为4 * 4的矩阵
- 矩阵在多个领域中起重要作用
- 多媒体信息处理
- 机器学习/人工智能等
二、矩阵的运算
- 矩阵可以参加运算
- 同型矩阵可以进行加减运算:(同型:行列相等,相同位置进行加减)
- 矩阵可以与数相乘
- 满足相应条件的矩阵可以进行相乘运算
- 矩阵与向量
- 只有一行或一列的矩阵又称向量
- 行向量或列向量:一般我们使用的是列向量
- 矩阵的线性乘法:
- 矩阵与矩阵相乘会略显复杂,需要满足必要条件,即矩阵1的宽必须等于矩阵2的高方可相乘。乘积矩阵的高和宽分别为矩阵1的高和矩阵2的宽,如下图表示:
- 矩阵与矩阵相乘会略显复杂,需要满足必要条件,即矩阵1的宽必须等于矩阵2的高方可相乘。乘积矩阵的高和宽分别为矩阵1的高和矩阵2的宽,如下图表示:
三、向量和矩阵的线性变换
向量的线性变换定义为:向量y的每一个元素都是向量x中元素的线性组合,则y是x的线性变换。假设有向量[x1, x2, x3]和向量[y1, y2, y3],两个向量满足以下关系:
y1 = a11 * x1 + a12 * x2 + a13 * x3
y2 = a21 * x1 + a22 * x2 + a23 * x3
y3 = a31 * x1 + a32 * x2 + a33 * x3
那么我们称向量[y1, y2, y3]可以被向量[x1, x2, x3]线性表示,以公式形式则表示为y=A·x。其含义可表示为矩阵与向量相乘:
矩阵A即为该线性变换的矩阵。
将向量的变换推广,矩阵可以视为由向量构成,因此线性线性变换同样适用于矩阵的变换:
四、向量的正交性
- 向量的内积
- 即两个向量对应元素成绩的总和(向量需是相同长度)
- 例:(1 2)*(3 4)=1 * 3 + 2 * 4=11
- 而向量的正交,等价于两个向量的内积为0。即:
- 正交向量,两个向量是垂直的
五、正交矩阵和正交向量
由于矩阵可视为由多个列向量构成,那么多个两两正交的向量可以构成正交矩阵。一个矩阵是正交矩阵需要满足的条件有:
- 行数和列数相等,即正交矩阵都为方阵;
- 每一个列向量均为单位向量,即长度均为1;
- 各列向量两两正交;
- 例:
前面提到,每一个矩阵都可以与一个线性变换对应。那么如果一个线性变换对应的变换矩阵是正交矩阵,那么该变换就是一个正交变换。正交变换的显著特点之一是,向量经过正交变换后长度不会发生变化。
六、离散余弦变换
-
离散余弦变换 (Discrete Cosine Transform, DCT)类似于一种实数类型的离散傅里叶变换(DFT)
-
对于图像数据,DCT具有很好的能量集中特性,通常主要能量部分集中于低频部分
-
一维数据的离散余弦变换表示为:
-
一维离散余弦逆变换为:
-
由于DCT具有类似于DFT的特性,DCT也可以实现如信息能量集中的功能。对于图像数据,DCT可以有效将大部分的能量集中与直流和低频部分,这也成为视频压缩中变换编码的理论基础之一。
-
离散余弦变换的应用场景:
-
视频:MPEG-1/MPEG-2;
-
图像:JPEG
在H.264及更新的视频压缩标准中,采用的是DCT的优化改进版——整数变换。相对于浮点类型的离散余弦变换,整数变换有效降低了变换操作的运算复杂度,提升了编解码器的运行效率。
越亮的部分能量越集中,而越暗的部分通常表示的信息越少
七、图像的空间域与频率域
- 图像的空间域表示
- 在空间域,图像表示为连续紧密排列的像素点
- 每个像素点的地位相同;某些像素点的缺失表现为图像在空间上的不完整;
- 图像的频率域表示
- 在频率域,图像表示为信息在不同频率上的分量值
- 每个频率分量的地位不同,低频分量通常对视觉效果影响更大(低频缺失图像面目全非,高频缺失只是边缘不清晰,所以为了提升图像的压缩比可以允许信息在比较高频的分量有一定的损失,对整体的观看效果影响不会很大)
八、书籍推荐
以上是关于十四变换编码:1矩阵运算正交变换离散余弦变换基本概念的主要内容,如果未能解决你的问题,请参考以下文章