借着Python-3来聊聊utf-8字符集
Posted 蒋乐兴的技术随笔
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了借着Python-3来聊聊utf-8字符集相关的知识,希望对你有一定的参考价值。
【关于文本文件】
文本文件也是以二进制序列的方式保存在磁盘中的,磁盘并不能保存文本;我们打开文本文件的时候之所以能看到文字,是因为
软件根据文件所用编码的字符集对文件进行解码的原因。
【以utf-8字符集为例】
字符集就是一种编码规则,如字母‘a‘在磁盘中是以 01100001 这个二进制串的形式保存;事实上生活中也有字符集这样的规则存在
比如600036这个号码对于“股民”来说这个就是“招商银行”;有点跑题了,回到重点上来,字符集就是一种编码规则。
utf-8自然也是一套编码规则啦,股票代码的长度是相对固定的,而utf-8编码后的二进制串的长度是不固定的;
---
以上是关于借着Python-3来聊聊utf-8字符集的主要内容,如果未能解决你的问题,请参考以下文章
Python 3.6,utf-8 到 unicode 的转换,带双反斜杠的字符串