如何删除/替换字符串列中的一系列特殊字符？ [关闭]

Posted 2023-02-14

技术标签:

【中文标题】如何删除/替换字符串列中的一系列特殊字符？ [关闭]【英文标题】：How to delete/replace a sequence of special characters in a string column? [closed] 【发布时间】：2022-01-17 04:11:00 【问题描述】：

我得到了一个数据框 (data.chem)，其中包含一列字符串，在本例中为名称。我想从列中的某些字符串中删除一系列特殊字符 (<U+034F>Â¨)。

由于前面步骤中的错误编码，列中的一些观察结果包含"<U+034F>Â¨"。这个序列我只是想删除而不损坏字符串的其余部分。

我尝试使用gsub()函数如下图所示；

data.chem <- data.chem %>% mutate(clean_name=gsub("<U+034F>Â¨", "", name))

代码运行，但当我导出数据时，新列 clean_name 仍包含字符串，包括序列 <U+034F>Â¨。

有谁知道如何处理这个问题？

【问题讨论】：

这是一个 XY 问题。您肯定有更好的方法来处理这个问题，可能是通过修复编码问题。 【参考方案1】：

如果这是您要删除的唯一序列，您可以使用gsub。

mystring <- c("<U+034F>Â¨A", "<U+034F>Â¨B", "C", "<U+034F>Â¨2", "D<U+034F>Â¨", "E<U+034F>Â¨F")

gsub("[<U+034F>Â¨].", "", mystring)
#> [1] "A"  "B"  "C"  "2"  "D"  "EF"

【讨论】：

以上是关于如何删除/替换字符串列中的一系列特殊字符？ [关闭]的主要内容，如果未能解决你的问题，请参考以下文章