基础二(格式化字符串运算符和编码)_day02
Posted liangying666
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基础二(格式化字符串运算符和编码)_day02相关的知识,希望对你有一定的参考价值。
一、Python的输出
(1)纯输出一个字符串或数字
print("Hello World") #输出 Hello World print(34) #输出 34
(2)利用字符串连接符号(+)输出
name = input("请输入你的名字") #提示用户输入名字 print("您的名字是:"+name)
用字符串拼接就很麻烦了,所以就有了格式化字符串输出
(3)格式化字符串输出
%s代表的就是字符串占位符,%s几乎是万能的
%d代表的数字占位符
如果你想把上面代码中的age转化为int类型,你需要使用
int(str) #字符串转换为int str(int) #int转换成字符串
(4)如果想输出:
问题:在2%,在字符串中如果使用了%s这样的占位符,那么所有的%都会变成占位符,2%也会变成占位符,这里我们需要用“%%”来表示字符串中的“%”。
注意:如果字符串中没有使用过%s或者%d占位,那么不需要考虑那么多,只需要一个%就可以输出
print("我叫%s, 今年22岁了, 学习python2%%了" % \'王尼玛\') # 有%占位符 print("我叫王尼玛, 今年22岁, 已经凉凉了100%了") # 没有占位符
(5)
print("我是{},今年{}岁了,我喜欢{}".format("saly",18,"周杰伦"))
print("我是{2},今年{0}岁了,我喜欢{1}".format(18,"周杰伦","saly"))
print("我是{name},今年{age}岁了,我喜欢{singer}".format(name="liangying",age=18,singer="周杰伦"))
(6) 其他用法
In [47]: \'{:,}\'.format(1234567890)
Out[47]: \'1,234,567,890\'
二、基本运算符
基本分类
- 算术运算符
- 比较运算符
- 逻辑运算符
- 赋值运算符
- 成员运算符
- 身份运算符
- 位运算
在这着重解释前四个
2.1 算术运算符
2.2 比较运算符
2.3 赋值运算符
2.4 逻辑运算符
补充:
(1)在没有括号()的情况下,not优先级高于and ,and优先级高于or 即优先级关系是:
() > not > and > or
(2)x or y,x为真,值就是x,x为假,值是y:
and与or相反
三、编码的问题
Python2解释器在加载.py文件中的代码时,会对内容进行编码(默认ASCII),而Python3对内容进行编码(默认为utf-8)
计算机:
早期,计算机是美国发明的,普及率不高,一般只是在美国使用。所以,最早的编码结构就是按照美国人的习惯来编码的,形成了最早的ASCII码,直到今天ASCII码依然深深影响着我们。
一、什么是字符编码。
要彻底解决字符编码的问题就不能不去了解到底什么是字符编码。计算机从本质上来说只认识二进制中的0和1,可以说任何数据在计算机中实际的物理表现形式也就是0和1,如果你将硬盘拆开,你是看不到所谓的数字0和1的,你能看到的只是一块光滑闪亮的磁盘,如果你用足够大的放大镜你就能看到磁盘的表面有着无数的凹凸不平的元件,凹下去的代表0,突出的代表1,这就是计算机用来表现二进制的方式。
1.ASCII
现在我们面临了第一个问题:如何让人类语言,比如英文被计算机理解?我们以英文为例,英文中有英文字母(大小写)、标点符号、特殊符号。如果我们将这些字母与符号给予固定的编号,然后将这些编号转变为二进制,那么计算机明显就能够正确读取这些符号,同时通过这些编号,计算机也能够将二进制转化为编号对应的字符再显示给人类去阅读。由此产生了我们最熟知的ASCII码。ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。这样在大部分情况下,英文与二进制的转换就变得容易多了。
2.GB2312
然而,虽然计算机是美国人发明的,但是全世界的人都在使用计算机。现在出现了另一个问题:如何让中文被计算机理解?这下麻烦了,中文不像拉丁语系是由固定的字母排列组成的。ASCII 码显然没办法解决这个问题,为了解决这个问题中国国家标准总局1980年发布《信息交换用汉字编码字符集》提出了GB2312编码,用于解决汉字处理的问题。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。这样我们就解决了计算机处理汉字的问题了。
3.Unicode
现在英文和中文问题被解决了,但新的问题又出现了。全球有那么多的国家不仅有英文、中文还有阿拉伯语、西班牙语、日语、韩语等等。难不成每种语言都做一种编码?基于这种情况一种新的编码诞生了:Unicode。Unicode又被称为统一码、万国码;它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode支持欧洲、非洲、中东、亚洲(包括统一标准的东亚象形汉字和韩国表音文字)。这样不管你使用的是英文或者中文,日语或者韩语,在Unicode编码中都有收录,且对应唯一的二进制编码。这样大家都开心了,只要大家都用Unicode编码,那就不存在这些转码的问题了,什么样的字符都能够解析了。
4.UTF-8
但是,由于Unicode收录了更多的字符,可想而知它的解析效率相比ASCII码和GB2312的速度要大大降低,而且由Unicode通过增加一个高字节对ISO Latin-1字符集进行扩展,当这些高字节位为0时,低字节就是ISO Latin-1字符。对可以用ASCII表示的字符使用Unicode并不高效,因为Unicode比ASCII占用大一倍的空间,而对ASCII来说高字节的0对他毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Unicode Transformation Format)。而我们最常用的UTF-8就是这些转换格式中的一种。在这里我们不去研究UTF-8到底是如何提高效率的,你只需要知道他们之间的关系即可。
总结:
**1.为了处理英文字符,产生了ASCII码。
2.为了处理中文字符,产生了GB2312。
3.为了处理各国字符,产生了Unicode。
4.为了提高Unicode存储和传输性能,产生了UTF-8,它是Unicode的一种实现形式。**
ASCII: 8bit 1byte
GBK: 16bit 2byte
unicode:32bit 4byte
UTF-8: 最少8bit, 1byte, 中文: 24bit 3byte
计算机存储系统单位换算
8bit => 1byte
1024byte => 1KB
1024kb = 1MB
1024MB = 1GB
1024GB = 1TB
回顾编码问题:
编码相当于密码本,关系到二进制与看懂的文字的的对应关系.
最早期的密码本:
ascii码:只包含英文字母,数字,特殊字符.
0000 0001:
\'fjdskal 我发\'
字符:组成你看到的内容的最小单位就是字符.
位:二进制中占有的位置,就是位.
字节:8位表示一个字节.
对于ascii码,一个字符是用8位一个字节去表示.
A: 01000001
unicode 万国码:将全世界所有的文字都给我汇总到一起.
起初:unicode:
一个字符用16位表示.
A: 0000 0000 0000 0010
中:0000 0000 1000 0010
最终unicode:
一个字符用32位表示.
A: 0000 0000 0000 0010 0000 0000 0000 0010
中:0000 0000 1000 0010 0000 0000 1000 0010
浪费,占用资源.
utf-8: 最少用8位表示一个字符.对unicode升级,
A: 01000001
欧洲文字: 0000 0000 1000 0010
亚洲文字: 0000 0010 0000 0000 1000 0010
gbk: 国标
英文字母:一个字节表示.中文两个字节表示.
A: 01000001
中:0000 0000 1000 0010
前提:
文件的存储和传输 不能用unicode编码
除了unicode 剩下的编码方式不能直接识别.
python3x版本.
int
str ----> 在内存中用的unicode
bytes类型
list
bool
dict
set
tuple
英文:
str:
表现形式: s = \'oldboy\'
内部编码: unicode
bytes:
表现形式: b1 = b\'oldboy\'
内部编码: 非unicode
中文:
str:
表现形式: s = \'中国\'
内部编码: unicode
bytes:
表现形式: b1 = b\'\\xe4\\xb8\\xad\\xe5\\x9b\\xbd\'
内部编码: 非unicode
以上是关于基础二(格式化字符串运算符和编码)_day02的主要内容,如果未能解决你的问题,请参考以下文章