如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中
Posted
技术标签:
【中文标题】如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中【英文标题】:How can I append my corpus metadata onto my dtm dataframe export using the TM package in R 【发布时间】:2021-03-26 13:40:22 【问题描述】:我目前正在使用 tm 包进行一些文本挖掘。我希望能够将我的文档术语矩阵导出为带有我的语料库元数据(id 变量等)的数据框。这是我当前的工作流程:
-
导入数据集
转换为语料库
基本清洁
创建 TF-IDF 文档术语矩阵
将 DTM 转换为数据帧
使用语料库元数据导出数据框
5 号是我卡住的地方。我觉得这个包绝对应该是可能的,但我找不到任何文档。使用 tm 创建 DTM 时元数据会丢失吗?
【问题讨论】:
【参考方案1】:在这里回答我自己的问题,以防其他人忽略我所做的相同事情。
tm 制作的 DTM 将 doc_id 变量存储为行名。因此,您可以将首选行名称用于变量代码以创建新变量,然后将其用作附加任何其他元数据的键。
一种方法的示例:
dtm
【讨论】:
以上是关于如何使用 R 中的 TM 包将我的语料库元数据附加到我的 dtm 数据帧导出中的主要内容,如果未能解决你的问题,请参考以下文章
使用 R 中的 tm 包为多个语料库制作前 N 个频繁项的数据框