utf-8 German Umlaut有两种不同的字节码表示
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了utf-8 German Umlaut有两种不同的字节码表示相关的知识,希望对你有一定的参考价值。
在utf-8中,德语字母“ö”有两种形式,一种是:b' xc3 xb6',另一种是b'o xcc x88'
以下代码在python 3.6.3中
In [1]: b'xc3xb6'.decode('utf-8')
Out[1]: 'ö'
In [2]: b'oxccx88'.decode('utf-8')
Out[2]: 'ö'
这将导致用“ö”搜索单词的问题。如何将第二种形式转换为第一种形式?
答案
通过Unicode normalization运行它。使用NFC
作为表格。
以上是关于utf-8 German Umlaut有两种不同的字节码表示的主要内容,如果未能解决你的问题,请参考以下文章
当按下umlaut键时,Python Tkinter触发keyevent
为啥有两种不同的方法 slice() 和 substring()?