几种编码方式

Posted 笑哼

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了几种编码方式相关的知识,希望对你有一定的参考价值。

UTF-16是Unicode字符编码五层次模型的第三层,字符编码表(Character Encoding Form,)的一种实现方式。即把Unicode的字符集的抽象码位

映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。

UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节 (2字节) 储存,但UTF-16却无法兼容于ASCII编码。

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码;

GBK是GB2312的扩展,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名。

UTF-8和GBK的区别:

字符均使用双字节来表示,只不过区分中文,将其最高位都定成1.

至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文

使用24位(三个字节)来编码。对于英文字符使用较多的论坛则用UTF-8节省空间。

GBK包括全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。

UTF-8编码的文字可以在各国各种支持UTF-8字符集的浏览器上显示。

大家都使用过Word,Word在打开文本文件的时候,如果其检测不是系统默认编码,就会让用户选择,并且推荐一种编码给用户(有时候不一定对,因为猜,就有几率不对),让用户自己决定要用什么编码显示.

 

CSV文件:CSV(comma  seperated value)即逗号分隔符,用记事本打开的话hi"a","b","c"这种格式。

好处:可以轻松的导入表格和数据库中,一行代表一条数据,这样就可以批量的导入导出数据库中的值。

 

半角逗号 ,
全角逗号 ,

二者外观差不多,但是,半角逗号只占半个汉字的位置,而全角逗号占一个汉字的位置,半角逗号用在英文里面。

 

假如你有一个TXT文件,并且各项之间以逗号分隔,那么你直接将扩展名改为CSV文件,以EXCEL打开,以逗号分隔的每一列就自动到了EXCEL的每一列中。
你也可以用EXCEL将你的内容存成CSV文件格式。

以上是关于几种编码方式的主要内容,如果未能解决你的问题,请参考以下文章

字符常见的几种编码方式

编码方式的编码方式

python有哪几种编码方式

几种常见的编码方式

Java 修改编码格式的几种方式

Java 修改编码格式的几种方式