如何使用 R Tidytext 加载文本以进行文本挖掘?

Posted

技术标签:

【中文标题】如何使用 R Tidytext 加载文本以进行文本挖掘?【英文标题】:How to load texts for text mining with R Tidytext? 【发布时间】:2018-03-02 19:37:14 【问题描述】:

如何加载 .txt 文件的文件夹以使用 Tidytext 进行文本挖掘?

我遇到了 Silge & Robinson “使用 R 进行文本挖掘:一种整洁的方法” (https://www.tidytextmining.com/),它似乎对我的目的很有希望。但我对 R 很陌生(试图为此目的学习它)所以我遇到了一些非常基本的问题。

虽然我可以遵循并重现这些示例,但它们大多从导入现有库(例如 janeaustenr 或 gutenbergr)开始,而我拥有的是一个包含 30 个 txt 文件的文件夹(每个文件都包含瑞典外交部长向议会提交的年度声明)。

我已经设法通过使用其他一些教程和 tm 包首先创建一个语料库,然后是一个 DTM,然后我可以将它变成一个整洁的数据框,但我想一定有一个更简单的方式,直接从一个txt文件的文件夹到一个整洁的数据框。

【问题讨论】:

【参考方案1】:

如果您有一个包含.txt 文件的文件夹,您可以将它们读入一个名为tbl 的数据框中,该数据框有一个名为text 的单列,代码如下:

library(tidyverse)

tbl <- list.files(pattern = "*.txt") %>% 
        map_chr(~ read_file(.)) %>% 
        data_frame(text = .)

这使用来自基本 R 的函数来查找文件 (list.files()),并使用来自 purrr 的函数来遍历所有文件。查看related question here。

之后,您可以继续进行其他分析任务。

【讨论】:

以上是关于如何使用 R Tidytext 加载文本以进行文本挖掘?的主要内容,如果未能解决你的问题,请参考以下文章

R文本文件和文本挖掘...如何加载数据

R 代码在整洁的文本中突然停止工作

如何使用整洁的文本使用二元组和三元组

使用txt文件作为源时的Tidytext unnest_tokens错误

用R进行文本分析初探——以《红楼梦》为例

R语言文本挖掘+词云显示(jiebaR包+wordcloud2包)