从Python中的字符串中删除奇怪的隐藏字符

Posted

技术标签:

【中文标题】从Python中的字符串中删除奇怪的隐藏字符【英文标题】:delete weird hidden characters from string in Python 【发布时间】:2020-05-04 04:38:42 【问题描述】:

我有一个 csv 文件,其中有一列包含字符串列表。这些字符串似乎有隐藏的字符,我只有在从每个字符串中删除某些字符时才能看到这些字符。

#string copied from column
print(len('kommunikationsfähigkeit'))
#same string entered by me 
print(len('kommunikationsfähigkeit'))

24
23

当删除部分列复制字符串时,我得到这个:

''̈igkeit'

有人知道那里发生了什么吗?我尝试使用 encoding='utf8' 读取 csv,但它没有改变任何东西。 我显然想摆脱那些角色。

【问题讨论】:

尝试打印“从列复制的字符串”的输出是什么。它也显示这些字符吗? 你试过.strip()函数吗? 它没有!我需要摆脱它们,因为我想检查一个元素是否在该列表中,如果我键入该元素,它将无法识别。此外,尝试 .strip() 没有任何运气。 参考here 【参考方案1】:

两者都是 UTF-8,但呈现相同视觉字符的方式不同。第一个字符串包含 U+00E4 — LATIN SMALL LETTER A WITH DIAERESIS。您的第二个字符串包含“a”,后跟 U+0308 — COMBINING DIAERESIS (̈),它们组合起来呈现为“ä”。

您可以使用unicodedata 自己检查字符串:

import unicodedata

for c in string:
    print(unicodedata.name(c))

以上两种方式都是表示“ä”的有效方式,并且在适当的 Unicode 规范化下它们被视为等效方式。您可以使用unicodedata.normalize 来规范化不同的表示。例如,您可以将两个字符串都转换为标准形式 C(尽管第一个字符串恰好在 NFC 中):

a = 'kommunikationsfähigkeit'
b = 'kommunikationsfähigkeit'
print(f'len(a) = len(a)')
# len(a) = 23
print(f'len(b) = len(b)')
# len(b) = 24
print(f'a == b: a == b')
# a == b: False

norm_a = unicodedata.normalize('NFC', a)
norm_b = unicodedata.normalize('NFC', b)
print(f'len(norm_a) = len(norm_a)')
# len(norm_a) = 23
print(f'len(norm_b) = len(norm_b)')
# len(norm_b) = 23
print(f'norm_a == norm_b: norm_a == norm_b')
# norm_a == norm_b: True

【讨论】:

【参考方案2】:

这是我不喜欢 Unicode 的原因之一。标准没有说“这是一种真正的方式”,而是定义了几种表示字符的方式。在这种情况下,一个字符串使用“组合”形式,而另一个使用“分解”形式(单独的字母和分音符号)。

您可能需要考虑对数据进行规范化:

import unicodedata
s1 = 'kommunikationsfähigkeit'
s2 = 'kommunikationsfähigkeit'
ns1 = unicodedata.normalize('NFC', s1)
ns2 = unicodedata.normalize('NFC', s2)
print(s1 == s2, ns1 == ns2)
# prints False True

上面的 sn-p 将字符串规范化为组合形式,这是许多系统使用的。分解的形式往往出现在 macOS 系统上,因为这是那里的默认设置。您可以看到字符串最初不比较为相等,但它们在规范化后会。

【讨论】:

以上是关于从Python中的字符串中删除奇怪的隐藏字符的主要内容,如果未能解决你的问题,请参考以下文章

从Python中的字符串中删除所有非数字字符

从 .mdb 字段名称中删除奇怪的字符

从 SQL Server varchar 列中删除奇怪的字符(带帽子的 A)

如何从 Python 中的一组字符串中删除特定的子字符串?

从Java中删除字符串中的空格[复制]

如何从 Python 的数据框列中的字符串中删除非字母数字字符?