计算机的字符与编码集

Posted 也无风雨、也无晴。

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了计算机的字符与编码集相关的知识,希望对你有一定的参考价值。

字符编码集的历史

  • ASCII码
  • Extended ASCII码
  • 字符编码集的国际化

ASCII码

  • 使用7个bits就可以完全表示ASCII码
  • 包含95个可打印字符
  • 33个不可打印字符(包括控制符)
  • 33+95=128 = 2的七次方
    在这里插入图片描述
    很多应用或国家中的符号都无法表示
    第一次对ASCII码进行扩充,7bits=》8bits

Extended ASCII码
在这里插入图片描述
新包含了:常见数学运算符,带音标的欧洲字符,其他字符,表格符等

字符编码集的国际化

  • 欧洲,中亚,东亚,拉丁美洲国家的语言多样性
  • 语言体系不一样,不以有限字符组合的语言
  • 中国,韩国,日本等语言最为复杂

中文编码集

中文编码集(GB2312)

  • 《信息交换用汉字编码字符集——基本集》
  • 一共收录了7445个字符
  • 包括6763个汉字和682个其他符号

中文编码集(GBK)

  • 《汉字内码扩展规范》
  • 向下兼容GB2312,向上支持国际ISO标准
  • 收录了21003个汉字,支持全部中日韩汉字

兼容全球的字符集:Unicode

  • Unicode:统一码,万国码,单一码
  • Unicode定义了世界通用的符号集,UTF-*实现了编码
  • UTF-8以字节为单位对Unicode进行编码

使用注意:

  • 编程推荐使用UTF-8编码
  • Windows系统默认使用GBK编码

以上是关于计算机的字符与编码集的主要内容,如果未能解决你的问题,请参考以下文章

编程必备基础知识|计算机组成原理篇(06):计算机的字符与编码集

浅谈编码集

字节流与字符流的区别

字符编码集格式

字符编码集

JSP/Servlet 中的汉字编码问题