Python爬虫（学习准备）

Posted 2020-11-29 大四毕业前来个offer

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫（学习准备）相关的知识，希望对你有一定的参考价值。

编码格式的认识：

字符：各种文字和符号的统称
字符集：多个字符的集合
字符集包括：ASCII字符集，GB2312字符集，GB18030，Unicode字符集等
1个字符ASCII编码占1个字节，用Unicode编码占2个字节
UTF-8是Unicode的实习方式之一，是一种变长的编码方式，可以是1,2,3个字节等

在Python中字符串分为两种类型：

bytes：二进制，互联网上数据都是以二进制传输
str：unicode的呈现方式

str与bytes的转换：

encode（）　　#str->bytes

decode（）　　#bytes->str

a = \'华南理工大学广州学院\'
print(type(a))　　#<class \'str\'>
b = a.encode()　　#参数不填默认utf-8编码
print(b)　　
print(type(b))　　#<class \'bytes\'>
a = b.decode(\'utf-8\')
print(a)　　#华南理工大学广州学院

cookie和session区别：