小论字符编码技术

Posted hackniandai

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了小论字符编码技术相关的知识,希望对你有一定的参考价值。

字符编码就是以二进制的数字来对应字符集的字符,目前用得最普遍的字符集是ANSI,对应ANSI字符集的二进制编码就称为ANSI码,DOS和Windows系统都使用了ANSI码,但在系统中使用的字符编码要经过二进制转换,称为系统内码。
汉字内码:ANSI码是单一字节(8位二进制数)的编码集,最多只能表示256个字符,不能表示众多的汉字字符,各个国家和地区在ANSI码的基础上又设计了各种不同的汉字编码集,以能够处理大数量的汉字字符。这些编码使用单字节来表示ANSI的英文字符(即兼容ANSI码),使用双字节来表示汉字字符。由于一个系统中只能有一种汉字内码,不能识别其它汉字内码的字符,造成了交流的不便。
GB码:GB码是1980年国家公布的简体汉字编码方案,在大陆、新加坡得到广泛的使用,也称国标码。国标码对6763个汉字集进行了编码,涵盖了大多数正在使用的汉字。
GBK码:GBK码是GB码的扩展字符编码,对多达2万多的简繁汉字进行了编码,简体版的Win95和Win98都是使用GBK作系统内码。
BIG5码:BIG5码是针对繁体汉字的汉字编码,目前在台湾、香港的电脑系统中得到普遍应用。
HZ码:HZ码是在Internet上广泛使用的一种汉字编码。
ISO -2022CJK码:ios-2022是国际标准组织(ISO)为各种语言字符制定的编码标准。采用二个字节编码,其中汉语编码称ISO- 2022 CN,日语、韩语的编码分别称JP、KR。一般将三者合称CJK码。目前CJK码主要在Internet网络中使用。
Unicode码:Unicode码也是一种国际标准编码,采用二个字节编码,与ANSI码不兼容。目前,在网络、Windows系统和很多大型软件中得到应用。
再就是压缩编码:
多媒体信息包括了文本,数据,声音,动画,图形,图像以及视频等多种媒体信息.虽然经过数字化处理后其数据量是非常大的,如果不进行数据压缩处理,计算机系统就无法对它进行存储和交换.另一个原因是图像,音频和视频这些媒体具有很大的压缩潜力.因为在多媒体数据中,存在着空间冗余,时间冗余,结构冗余,知识冗余,视觉冗余,图像区域的相同性冗余,纹理的统计冗余等.它们为数据压缩技术的应用提供了可能的条件.因此在多媒体系统中必须采用数据压缩技术,它是多媒体技术中一项十分关键的技术.
数据压缩方法的分类
(1)根据质量有无损失可分为有损失编码和无损失编码.
(2)按照其作用域在空间域或频率域上分为:空间方法,变换方法和混合方法.
(3)根据是否自适应分为自适应性编码和非适应性编码.
依据压缩算法分类:
(1)脉冲编码调制
(2)预测编码
(3)变换编码
(4)统计编码
(5)混合编码
(1)脉冲编码调制
脉冲编码调制实际上是连续模拟信号的数字采样表示.脉冲编码调制(PCM)编码器和解码器位于一个图像编码系统的起点和终点.下面几种编码方法都是在多媒体数据模拟信号经过PCM编码后再进行的压缩编码方法.
(2)预测编码
编码器记录与传输的不是样本的真实值,而是它与预测值的差.这一方法称为差值脉冲编码调制(DPCM)方法.
(3)变换编码
变换编码的主要思想是利用图像块像素值之间的相关性,把图像变换到一组新的基上,使得能量集中到少数几个变换系数上,通过存储这些系数而达到压缩的目的.
在变换编码中,由于对整幅图像进行变换的计算量太大,所以一般把原始图像分成许多个矩形区域子图像独立进行变换.
常用的有离散余弦变换(DCT)
(4)统计编码
最常用的统计编码是Huffman编码.它对于出现频率大的符号用较少的位数来表示,而对出现频率较小的符号用较多的位数来表示.其编码效率主要取决于需编码的符号出现的概率分布,越集中则压缩比越高.
另外还有算术编码,游程编码.
(5)混合编码
混合编码是指合并变换和预测技术的编码,通常有两种编码形式

 

如果你问我咋懂得这多字符集编码技术:我想告诉各位我都是在这里学到的:http://www.hackernc.com/thread-4500-1-1.html

以上是关于小论字符编码技术的主要内容,如果未能解决你的问题,请参考以下文章

中文字符替换为其unicode编码值小3的字符

DB2的JDBC连接字符串有数据库字符集编码的配置参数吗

开发技术--浅谈文件操作与字符编码

编码方式的编码方式

Python 字符集编码 - UTF-8 编码

常见的3种字符编码方式