使用txt文件作为源时的Tidytext unnest_tokens错误

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用txt文件作为源时的Tidytext unnest_tokens错误相关的知识,希望对你有一定的参考价值。

对这个主题来说是新的。我在tidytext包中使用unnest_tokens函数遇到麻烦。我有一些要分析的.txt格式的文本。

一个例子是将以下句子放入txt文件,然后将其读入R:

Emily Dickinson wrote some lovely text in her time.

text <- c("Because I could not stop for Death -",
          "He kindly stopped for me -",
          "The Carriage held but just Ourselves -",
          "and Immortality")

下面是我的代码:

library(dplyr)
library(tidytext)
library(readtext)
my_data <- read_file("exp.txt")
my_data_tibble <- tibble(text = my_data)
my_data_tibble %>% 
  unnest_tokens(word, my_data)

然后我将在下面收到错误消息:

Error in check_input(x) : 
  Input must be a character vector of any length or a list of character
  vectors, each of which has a length of 1.

有人能解决我的问题吗?预先谢谢!

答案

第一个输入是您想要的输出列的列名,第二个是输入。

library(tidytext)

my_data_tibble %>% unnest_tokens(word, text)

# A tibble: 20 x 1
#   word       
#   <chr>      
# 1 because    
# 2 i          
# 3 could      
# 4 not        
# 5 stop       
# 6 for        
# 7 death      
# 8 he         
#...
#....

以上是关于使用txt文件作为源时的Tidytext unnest_tokens错误的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 R Tidytext 加载文本以进行文本挖掘?

如何在 tidytext 中包含选择的 2 词短语作为标记?

log4j使用kafka作为输出源时死锁

允许拒绝或尝试以CRONJOB作为CRONJOB运行PHP脚本以创建.txt文件时的某些内容

尝试使用 Attunity 连接到 Teradata 作为源时出错

使用SF Symbol作为图像源时,UICollectionViewCell中的UIImageView随机改变帧