如何使用 R Tidytext 加载文本以进行文本挖掘?
Posted
技术标签:
【中文标题】如何使用 R Tidytext 加载文本以进行文本挖掘?【英文标题】:How to load texts for text mining with R Tidytext? 【发布时间】:2018-03-02 19:37:14 【问题描述】:如何加载 .txt 文件的文件夹以使用 Tidytext 进行文本挖掘?
我遇到了 Silge & Robinson “使用 R 进行文本挖掘:一种整洁的方法” (https://www.tidytextmining.com/),它似乎对我的目的很有希望。但我对 R 很陌生(试图为此目的学习它)所以我遇到了一些非常基本的问题。
虽然我可以遵循并重现这些示例,但它们大多从导入现有库(例如 janeaustenr 或 gutenbergr)开始,而我拥有的是一个包含 30 个 txt 文件的文件夹(每个文件都包含瑞典外交部长向议会提交的年度声明)。
我已经设法通过使用其他一些教程和 tm 包首先创建一个语料库,然后是一个 DTM,然后我可以将它变成一个整洁的数据框,但我想一定有一个更简单的方式,直接从一个txt文件的文件夹到一个整洁的数据框。
【问题讨论】:
【参考方案1】:如果您有一个包含.txt
文件的文件夹,您可以将它们读入一个名为tbl
的数据框中,该数据框有一个名为text
的单列,代码如下:
library(tidyverse)
tbl <- list.files(pattern = "*.txt") %>%
map_chr(~ read_file(.)) %>%
data_frame(text = .)
这使用来自基本 R 的函数来查找文件 (list.files()
),并使用来自 purrr 的函数来遍历所有文件。查看related question here。
之后,您可以继续进行其他分析任务。
【讨论】:
以上是关于如何使用 R Tidytext 加载文本以进行文本挖掘?的主要内容,如果未能解决你的问题,请参考以下文章