将语料库转换为数据框返回 NA
Posted
技术标签:
【中文标题】将语料库转换为数据框返回 NA【英文标题】:Converting corpus to dataframe returns NA's 【发布时间】:2020-02-16 16:57:30 【问题描述】:我正在尝试将我的语料库转换回数据帧,但它只返回 NA。请帮忙
代码:
library(wordcloud)
df <- data.frame(Description = c("I like this service very much"," this is worth it so much"))
corpus <- Corpus(VectorSource(df$Description))
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeWords, c(stopwords('english')))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, stemDocument)
#a <- as.data.frame(corpus)
dataframe<-data.frame(text=unlist(sapply(corpus, `[`, "content")),
stringsAsFactors=F)
预期输出:
数据框
'like servic much'
'worth much'
【问题讨论】:
【参考方案1】:以下代码对我有用:
dataframe <- data.frame(text = sapply(corpus, as.character), stringsAsFactors = FALSE)
输出:
text
1 like servic much
2 worth much
【讨论】:
以上是关于将语料库转换为数据框返回 NA的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中
将语料库中的名称部分匹配到 Pandas 数据框中另一列中的名称
如何在Pandas数据帧(Python)中查找语料库中最常用的单词