utf-8 German Umlaut有两种不同的字节码表示

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了utf-8 German Umlaut有两种不同的字节码表示相关的知识,希望对你有一定的参考价值。

在utf-8中,德语字母“ö”有两种形式,一种是:b' xc3 xb6',另一种是b'o xcc x88'

以下代码在python 3.6.3中

In [1]: b'xc3xb6'.decode('utf-8')
Out[1]: 'ö'

In [2]: b'oxccx88'.decode('utf-8')
Out[2]: 'ö'

这将导致用“ö”搜索单词的问题。如何将第二种形式转换为第一种形式?

答案

通过Unicode normalization运行它。使用NFC作为表格。

以上是关于utf-8 German Umlaut有两种不同的字节码表示的主要内容,如果未能解决你的问题,请参考以下文章