如何删除/替换字符串列中的一系列特殊字符? [关闭]

Posted

技术标签:

【中文标题】如何删除/替换字符串列中的一系列特殊字符? [关闭]【英文标题】:How to delete/replace a sequence of special characters in a string column? [closed] 【发布时间】:2022-01-17 04:11:00 【问题描述】:

我得到了一个数据框 (data.chem),其中包含一列字符串,在本例中为名称。我想从列中的某些字符串中删除一系列特殊字符 (<U+034F>¨)。

由于前面步骤中的错误编码,列中的一些观察结果包含"<U+034F>¨"。这个序列我只是想删除而不损坏字符串的其余部分。

我尝试使用gsub()函数如下图所示;

data.chem <- data.chem %>% mutate(clean_name=gsub("<U+034F>¨", "", name))

代码运行,但当我导出数据时,新列 clean_name 仍包含字符串,包括序列 &lt;U+034F&gt;¨

有谁知道如何处理这个问题?

【问题讨论】:

这是一个 XY 问题。您肯定有更好的方法来处理这个问题,可能是通过修复编码问题。 【参考方案1】:

如果这是您要删除的唯一序列,您可以使用gsub

mystring <- c("<U+034F>¨A", "<U+034F>¨B", "C", "<U+034F>¨2", "D<U+034F>¨", "E<U+034F>¨F")

gsub("[<U+034F>¨].", "", mystring)
#> [1] "A"  "B"  "C"  "2"  "D"  "EF"

【讨论】:

以上是关于如何删除/替换字符串列中的一系列特殊字符? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

如何替换 Pandas 数据框的字符串列中的文本?

修改字符串列并替换子字符串 pyspark

如何从 Pyspark Dataframe 中的字符串列中过滤字母值?

如何查找和替换字符串列中数字之间的空格?

sql 替换数据库的所有字符串列中的文本

如何在字符串列中应用正则表达式替换