将语料库转换为数据框返回 NA

Posted

技术标签:

【中文标题】将语料库转换为数据框返回 NA【英文标题】:Converting corpus to dataframe returns NA's 【发布时间】:2020-02-16 16:57:30 【问题描述】:

我正在尝试将我的语料库转换回数据帧,但它只返回 NA。请帮忙

代码:

library(wordcloud)
df <- data.frame(Description = c("I like this service very much"," this is worth it so much"))

corpus <- Corpus(VectorSource(df$Description))

corpus <- tm_map(corpus, tolower)

corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeWords, c(stopwords('english')))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, stemDocument)

#a <- as.data.frame(corpus)

dataframe<-data.frame(text=unlist(sapply(corpus, `[`, "content")), 
                      stringsAsFactors=F)

预期输出:

数据框

'like servic much'
'worth much'

【问题讨论】:

【参考方案1】:

以下代码对我有用:

dataframe <- data.frame(text = sapply(corpus, as.character), stringsAsFactors = FALSE)

输出:

              text
1 like servic much
2       worth much

【讨论】:

以上是关于将语料库转换为数据框返回 NA的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中

将语料库中的名称部分匹配到 Pandas 数据框中另一列中的名称

如何在Pandas数据帧(Python)中查找语料库中最常用的单词

使用 R 中的 tm 包为多个语料库制作前 N 个频繁项的数据框

如何将在线书籍中的单词语料库转换为术语文档矩阵?

如何将数据帧转换为 Iramuteq 和 Alceste 可读的 txt