如何使用 R Tidytext 加载文本以进行文本挖掘？

Posted 2023-04-18

技术标签:

【中文标题】如何使用 R Tidytext 加载文本以进行文本挖掘？【英文标题】：How to load texts for text mining with R Tidytext? 【发布时间】：2018-03-02 19:37:14 【问题描述】：

如何加载 .txt 文件的文件夹以使用 Tidytext 进行文本挖掘？

我遇到了 Silge & Robinson “使用 R 进行文本挖掘：一种整洁的方法” (https://www.tidytextmining.com/)，它似乎对我的目的很有希望。但我对 R 很陌生（试图为此目的学习它）所以我遇到了一些非常基本的问题。

虽然我可以遵循并重现这些示例，但它们大多从导入现有库（例如 janeaustenr 或 gutenbergr）开始，而我拥有的是一个包含 30 个 txt 文件的文件夹（每个文件都包含瑞典外交部长向议会提交的年度声明)。

我已经设法通过使用其他一些教程和 tm 包首先创建一个语料库，然后是一个 DTM，然后我可以将它变成一个整洁的数据框，但我想一定有一个更简单的方式，直接从一个txt文件的文件夹到一个整洁的数据框。

【问题讨论】：

【参考方案1】：

如果您有一个包含.txt 文件的文件夹，您可以将它们读入一个名为tbl 的数据框中，该数据框有一个名为text 的单列，代码如下：

library(tidyverse)

tbl <- list.files(pattern = "*.txt") %>% 
        map_chr(~ read_file(.)) %>% 
        data_frame(text = .)

这使用来自基本 R 的函数来查找文件 (list.files())，并使用来自 purrr 的函数来遍历所有文件。查看related question here。

之后，您可以继续进行其他分析任务。

【讨论】：

以上是关于如何使用 R Tidytext 加载文本以进行文本挖掘？的主要内容，如果未能解决你的问题，请参考以下文章