借着Python-3来聊聊utf-8字符集

Posted 蒋乐兴的技术随笔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了借着Python-3来聊聊utf-8字符集相关的知识,希望对你有一定的参考价值。

关于文本文件

  文本文件也是以二进制序列的方式保存在磁盘中的,磁盘并不能保存文本;我们打开文本文件的时候之所以能看到文字,是因为

  软件根据文件所用编码的字符集对文件进行解码的原因。

 

以utf-8字符集为例

  字符集就是一种编码规则,如字母‘a‘在磁盘中是以 01100001 这个二进制串的形式保存;事实上生活中也有字符集这样的规则存在

  比如600036这个号码对于“股民”来说这个就是“招商银行”;有点跑题了,回到重点上来,字符集就是一种编码规则。

 

  utf-8自然也是一套编码规则啦,股票代码的长度是相对固定的,而utf-8编码后的二进制串的长度是不固定的;

 

 

 

---

以上是关于借着Python-3来聊聊utf-8字符集的主要内容,如果未能解决你的问题,请参考以下文章

借着谈转正感想的时机,再聊聊外企和互联网公司的工作体验

Python 3.6,utf-8 到 unicode 的转换,带双反斜杠的字符串

Python 3.3 C 字符串处理(wchar_t 与 char)

聊聊String.format()方法

FAQ系列 | utf8表存储latin1乱码字符转换

无法解码gmail中的特殊字符 - python 3.6