删除除“you”、“your's”、“me”、“mine”之外的所有停用词
Posted
技术标签:
【中文标题】删除除“you”、“your\'s”、“me”、“mine”之外的所有停用词【英文标题】:Removing all stopwords except "you", "your's", "me", "mine"删除除“you”、“your's”、“me”、“mine”之外的所有停用词 【发布时间】:2020-11-18 22:19:41 【问题描述】:我正在尝试删除所有英语停用词,“you/your's”、“me/mine”除外,因为这些对我的分析很重要。有人可以帮我解决这个问题吗?我对 R 很陌生,所以我知道我使用以下代码删除了停用词:
corpus <- tm_map(corpus, removeWords, stopwords("english"))
...但我不知道如何保留我需要的单词
【问题讨论】:
【参考方案1】:您可以从 stopwords("english") 中提取字符串并删除您希望保留的字符串,这样它们就不会被排除在外。 这是 dplyr 语法的示例。
library(tm)
library(dplyr)
library(stringr)
words_to_keep <- c("me","mine","your","yours")
my_stopwords <- data.frame(words = stopwords("english"))%>% #make into dataframe
filter(!(words %in% words_to_keep))%>% #filter to exclude the words you want to keep
pull() #transform it back into a vector of strings
corpus <- tm_map(corpus,removeWords,my_stopwords)
【讨论】:
以上是关于删除除“you”、“your's”、“me”、“mine”之外的所有停用词的主要内容,如果未能解决你的问题,请参考以下文章
英语口语练习(Don't get me wrong, that explanation makes no difference, I'm still mad at you. Come