如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中

Posted

技术标签:

【中文标题】如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中【英文标题】:How can I append my corpus metadata onto my dtm dataframe export using the TM package in R 【发布时间】:2021-03-26 13:40:22 【问题描述】:

我目前正在使用 tm 包进行一些文本挖掘。我希望能够将我的文档术语矩阵导出为带有我的语料库元数据(id 变量等)的数据框。这是我当前的工作流程:

    导入数据集 转换为语料库 基本清洁 创建 TF-IDF 文档术语矩阵 将 DTM 转换为数据帧 使用语料库元数据导出数据框

5 号是我卡住的地方。我觉得这个包绝对应该是可能的,但我找不到任何文档。使用 tm 创建 DTM 时元数据会丢失吗?

【问题讨论】:

【参考方案1】:

在这里回答我自己的问题,以防其他人忽略我所做的相同事情。

tm 制作的 DTM 将 doc_id 变量存储为行名。因此,您可以将首选行名称用于变量代码以创建新变量,然后将其用作附加任何其他元数据的键。

一种方法的示例:

dtm

【讨论】:

以上是关于如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中的主要内容,如果未能解决你的问题,请参考以下文章

R文本挖掘之tm包

使用 R 中的 tm 包为多个语料库制作前 N 个频繁项的数据框

在 R tm 中添加自定义停用词

tm::findAssocs 的数学 这个函数是如何工作的?

如何在 R 中清理 twitter 数据?

从 CSV 文件中挖掘 R 文本文档(每个文档一行)