utf-8 German Umlaut有两种不同的字节码表示

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了utf-8 German Umlaut有两种不同的字节码表示相关的知识,希望对你有一定的参考价值。

在utf-8中,德语字母“ö”有两种形式,一种是:b' xc3 xb6',另一种是b'o xcc x88'

以下代码在python 3.6.3中

In [1]: b'xc3xb6'.decode('utf-8')
Out[1]: 'ö'

In [2]: b'oxccx88'.decode('utf-8')
Out[2]: 'ö'

这将导致用“ö”搜索单词的问题。如何将第二种形式转换为第一种形式?

答案

通过Unicode normalization运行它。使用NFC作为表格。

以上是关于utf-8 German Umlaut有两种不同的字节码表示的主要内容,如果未能解决你的问题,请参考以下文章

当按下umlaut键时,Python Tkinter触发keyevent

utf-8中的php正则表达式单词边界匹配

为啥在 Sklearn 的不同指标上有两种不同的结果

为啥有两种不同的方法 slice() 和 substring()?

如果我有两种不同类型的单元格,如何使用 FetchedResultsController?

Laravel vue 有两种不同的布局