06-02字符串与bytes

Posted cishi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了06-02字符串与bytes相关的知识,希望对你有一定的参考价值。

字符串与bytes

python2和python3最大的区别

区别之处

  • str是文本序列

  • bytes是字节序列

  • 文本是有编码的(utf-8, gbk, GB18030等)

  • 字节没有编码的这种说法。

  • 文本的编码指的是字符如何使用字节表示。

bytes与str关系

  • python3字符串默认使用utf-8编码
  • str转bytes:s.encode()
    • 默认使用utf-8
    • s.encode(‘GBK‘)# 指定传递不同的编码
  • bytes转str:b.decode()
  • bytes转二进制:bin(0xe9),str不能直接转二进制
  • 跨网络交互,如果双方没有使用协定的编码处理,那么就会产生乱码。python3中统一发送bytes, 然后通过某种方式协商编码。
    • 在Python2中,要么遇不到,要么遇到了无法解决, 所以在Python3中很好的解决了这个问题。
  • string的所有操作bytes都支持
In [46]: s = ‘马哥教育‘

In [47]: type(s)
Out[47]: str

In [48]: s.encode()   # 把字符串编码为bytes
Out[48]: b‘xe9xa9xacxe5x93xa5xe6x95x99xe8x82xb2‘

In [49]: ‘马‘.encode()   # 将‘马‘抓换为bytes
Out[49]: b‘xe9xa9xac‘

In [50]: ‘哥‘.encode()   # 将‘哥‘转换为bytes
Out[50]: b‘xe5x93xa5‘

In [54]: 0xe9    # 16进制,encode一般是去掉0
Out[54]: 233

In [55]: 0xa9
Out[55]: 169

In [56]: 0xac
Out[56]: 172

In [57]: bin(0xe9)    # 转换为二进制
Out[57]: ‘0b11101001‘

In [58]: bin(0xa9)
Out[58]: ‘0b10101001‘    # 0b代表的是二进制

In [59]: bin(0xac)
Out[59]: ‘0b10101100‘

In [60]: 11101001 10101001 10101100   # 马字在计算机中的表示

In [61]: s.encode(‘GBK‘)   # 指定传递不同的编码
Out[61]: b‘xc2xedxb8xe7xbdxccxd3xfd‘

In [62]: s.encode()    # 默认使用utf-8
Out[62]: b‘xe9xa9xacxe5x93xa5xe6x95x99xe8x82xb2‘

In [64]: b = s.encode()   # 将utf-8转换为bytes存储

In [65]: b
Out[65]: b‘xe9xa9xacxe5x93xa5xe6x95x99xe8x82xb2‘

In [66]: b.decode()   # 把bytes转换为str
Out[66]: ‘马哥教育‘

In [67]: type(b)
Out[67]: bytes

In [68]: b.decode(‘GBK‘)   # utf-8无法转换为GBK
---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-68-041bea7b9d7a> in <module>()
----> 1 b.decode(‘GBK‘)

UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xac in position 2: illegal multibyte sequence

跨网络交互, 如果双方没有使用协定的编码处理,那么就会产生乱码。
python3中统一发送bytes, 然后通过某种方式协商编码。

在Python2中,要么遇不到,要么遇到了无法解决, 所以在Python3中很好的解决了这个问题。

string的所有操作bytes都支持

bytes的创建

  • bytes由str通过encode方法转换得到
  • 通过b前缀直接定义bytes
In [4]: b = b‘abc‘

In [5]: type(b)
Out[5]: bytes

In [6]: b.decode()
Out[6]: ‘abc‘

bytes操作

除了encode外, str操作, 都有对应bytes的版本, 但是传入参数必须是bytes。
bytes操作是按照字节来的

In [7]: b.‘abc‘.find(‘b‘)   # 参数必须也是bytes
  File "<ipython-input-7-f89f1c2c6bad>", line 1
    b.‘abc‘.find(‘b‘)
          ^
SyntaxError: invalid syntax

In [8]: b‘abc‘.find(b‘b‘)   # 参数必须是bytes
Out[8]: 1

In [10]: ‘马哥教育‘.encode().find(b‘xa9‘)   # bytes操作是按照字节来的
Out[10]: 1

In [11]: len(‘马哥教育‘.encode())   # 按照字节来的
Out[11]: 12

In [13]: b.decode()   # 转换为str
Out[13]: ‘abc‘

In [14]: b.hex 
Out[14]: <function bytes.hex>

In [15]: b.hex()   # 转换为16进制
Out[15]: ‘616263‘

bytearray

  • bytearray是bytes的可变版本
  • str和bytes是不可变的
  • bytes为什么需要一个可变的版本?
    • 图片处理, 修改几个像素的时候, bytes无法原地修改, 如果一个图片3M修改1000次就需要3G的内存, bytearray为了针对这种场景的。大对象的二进制文件做一些原地处理。
  • str为什么没有一个可变版本?
    • 因为str没有那么大的对象,如果有, 可以先转换为bytearray, 然后再进行处理, 所以不需要。
  • 相对于bytes来说, 多了insert, append, extend, pop, remove, clear, reverse原地修改的方法。
  • 为什么bytearray插入的字节必须是int
    • 因为bytearray它操作的是单个字节
    • python没有byte这种类型, 但是byte都可以用int表示。
    • 但并不是所有的int可以
  • int必须在0 ~ 256这个范围内, 即8位无符号整数。例如b.append(10000000000)就会报错
In [16]: b = b‘abc‘

In [17]: b[1] = b‘B‘    # 不可变的情况在这
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-17-77f7c5b425ec> in <module>()
----> 1 b[1] = b‘B‘

TypeError: ‘bytes‘ object does not support item assignment

In [176]: b = bytearray(b)

In [20]: b[1] = int(b‘B‘.hex(), 16)   # bytearray可变的地方

In [21]: b
Out[21]: bytearray(b‘aBc‘)

bytearray是可变的

bytes为什么需要一个可变的版本? 
    图片处理, 修改几个像素的时候, bytes无法原地修改, 如果一个图片3M修改1000次就需要3G的内存, bytearray为了针对这种场景的。大对象的二进制文件做一些原地处理。

str为什么没有一个可变版本?
    因为str没有那么大的对象,如果有, 可以先转换为bytearray, 然后再进行处理, 所以不需要。

相对于bytes来说, 多了insert, append, extend, pop, remove, clear, reverse原地修改的方法。
并且支持索引操作

In [23]: b.append(b‘b‘)   # insert, append, remove, count参数必须是int
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-23-ac0cb45348e8> in <module>()
----> 1 b.append(b‘b‘)

TypeError: an integer is required

为什么bytearray插入的字节必须是int
    因为bytearray它操作的是单个字节
    python没有byte这种类型, 但是byte都可以用int表示。
    但并不是所有的int可以

In [24]: b.append(10000000000000000000000000000000000000000000000000000000000000000000)   # int必须在0 ~ 256这个范围内, 即8位无符号整数。
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-24-2897620e98cd> in <module>()
----> 1 b.append(10000000000000000000000000000000000000000000000000000000000000000000)

ValueError: byte must be in range(0, 256)

以上是关于06-02字符串与bytes的主要内容,如果未能解决你的问题,请参考以下文章

ElasticSearch学习问题记录——Invalid shift value in prefixCoded bytes (is encoded value really an INT?)(代码片段

ArrayList<Byte> 与 Java 中的字符串

golang代码片段(摘抄)

《汇编语言 基于x86处理器》第九章字符串与数组部分的代码

字符串与bytes

JavaScript 代码片段